OpenThaiGPT Version 1.0

เทคโนโลยีทางภาษาแบบ ChatGPT (Large Language Model) พัฒนาเพื่อคนไทยทุกคน

🇹🇭 OpenThaiGPT เวอร์ชัน 1.0.0 เป็นโมเดลแชทภาษาไทยขนาดใหญ่ขนาด 7, 13 และ 70 พันล้านพารามิเตอร์ ซึ่งพัฒนาต่อยอดจาก Facebook LLaMA v2 ให้มีความสามารถในการเข้าใจและเขียนภาษาไทยได้ เปิดโค้ดและโมเดลอย่างเสรี (Opensource) ให้ทุกคนสามารถนำไปพัฒนาต่อยอดหรือแม้กระทั่งการทำการค้าได้ (Apache 2.0 License) เพื่อเป็น Infrastructure พื้นฐานด้านปัญญาประดิษฐ์สำหรับคนไทยทุกคน

รายละเอียดเพิ่มเติมอ่านต่อได้ที่ OpenThaiGPT 1.0.0 <8 Apr 2024>

ดาวน์โหลดโมเดล

Model Pipeline

สามารถโหลดโมเดล และใช้งานโมเดลได้ผ่าน google colab

https://colab.research.google.com/drive/1w1giDWhmq3WIUCK4AISFJtGIqiPDtRSC?usp=sharing

จุดเด่น

  • โมเดลภาษาไทย LLM แบบเปิดที่ทันสมัยที่สุด, ทำคะแนนสอบภาษาไทยได้เฉลี่ยสูงสุดเมื่อเทียบกับโมเดลภาษาไทยแบบเปิดอื่นๆ

  • เป็นโมเดลเปิดภาษาไทยที่มีขนาดใหญ่ถึง 70 พันล้านพารามิเตอร์โมเดลแรกของโลก

  • รองรับการสนทนาโต้ตอบหลายครั้งแบบต่อเนื่อง (Multi-turn Conversation)

  • โมเดลมีความสามารถในการค้นหาข้อมูลและสกัดคำตอบบน Prompt ที่มีความยาวได้อย่างมีประสิทธิภาพ (เหมาะสมกับการ RAG เป็นอย่างมาก)

  • ความเร็วในการตอบคำถามรวดเร็ว ด้วยการเพิ่มคำภาษาไทยที่พบบ่อยมากถึง 10,000 คำลงในพจนานุกรมของโมเดล

  • เรียนรู้บนข้อมูลภาษาไทย (Pretraining) กว่า 65 พันล้านคำ มีการกำจัดข้อมูลภาษาไทยซ้ำซ้อนที่ใช้ในเรียนรู้ (Deduplicated Dataset) และปรับจูนให้ตอบคำถามทั่วไปภาษาไทย (Finetuning) บนมากกว่า 1 ล้านตัวอย่าง

  • สามารถเข้าใจและประมวลผล บริบทของข้อมูลภาษาไทยได้ถึง 4096 คำ, ช่วยให้สามารถให้คำแนะนำที่ละเอียดและซับซ้อนได้

ความสามารถด้านภาษาไทย (วัดโดยการทำข้อสอบภาษาไทยด้านความรู้ต่างๆ)

Exams
OTG 7b (Aug 2023)
OTG 13b (Dec 2023)
OTG 7b (April 2024)
OTG 13b (April 2024)
OTG 70b (April 2024)
SeaLLM 7b v1
SeaLLM 7b v2
SeaLion 7b
WanchanGLM 7b
Sailor-7b-Chat
TyphoonGPT 7b Instruct
GPT3.5
GPT4
Gemini Pro
Gemini 1.5
Claude 3 Haiku
Claude 3 Sonnet
Claude 3 Opus

A-Level

17.50%

34.17%

25.00%

30.83%

45.83%

18.33%

34.17%

21.67%

17.50%

40.00%

37.50%

38.33%

65.83%

56.67%

55.83%

58.33%

59.17%

77.50%

TGAT

24.00%

22.00%

22.00%

36.00%

36.00%

14.00%

28.00%

24.00%

16.00%

34.00%

30.00%

28.00%

44.00%

22.00%

28.00%

36.00%

34.00%

46.00%

TPAT1

22.50%

47.50%

42.50%

27.50%

62.50%

22.50%

27.50%

22.50%

17.50%

40.00%

47.50%

45.00%

52.50%

52.50%

50.00%

52.50%

50.00%

62.50%

thai_investment_consultant_exams

8.00%

28.00%

76.00%

84.00%

68.00%

16.00%

28.00%

24.00%

16.00%

24.00%

32.00%

40.00%

64.00%

52.00%

32.00%

44.00%

64.00%

72.00%

facebook_beleble_tha_200

25.00%

45.00%

34.50%

39.50%

70.00%

13.50%

51.00%

27.00%

24.50%

63.00%

51.50%

50.00%

72.50%

65.00%

74.00%

63.50%

77.00%

90.00%

xcopa_th_200

45.00%

56.50%

49.50%

51.50%

74.50%

26.50%

47.00%

51.50%

48.50%

68.50%

65.00%

64.00%

82.00%

68.00%

74.00%

64.00%

80.00%

86.00%

xnli2.0_th_200

33.50%

34.50%

39.50%

31.00%

47.00%

21.00%

43.00%

37.50%

33.50%

16.00%

20.00%

50.00%

69.00%

53.00%

54.50%

50.00%

68.00%

68.50%

ONET M3

17.85%

38.86%

34.11%

39.36%

56.15%

15.58%

23.92%

21.79%

19.56%

21.37%

28.03%

37.91%

49.97%

55.99%

57.41%

52.73%

40.60%

63.87%

ONET M6

21.14%

28.87%

22.53%

23.32%

42.85%

15.09%

19.48%

16.96%

20.67%

28.64%

27.46%

34.44%

46.29%

45.53%

50.23%

34.79%

38.49%

48.56%

AVERAGE SCORE

23.83%

37.27%

38.40%

40.33%

55.87%

18.06%

33.56%

27.44%

23.75%

37.28%

37.67%

43.07%

60.68%

52.30%

52.89%

50.65%

56.81%

68.32%

การทดสอบด้วยการทำข้อสอบแบบ Multiple Choice ภาษาไทย ทดสอบบนชุดข้อสอบที่ไม่เคยเห็นมาก่อน ทดสอบแบบ Zero-shot Learning, โค้ดการทดสอบและเนื้อหาข้อสอบสามารถทำตามได้ที่นี่ >> https://github.com/OpenThaiGPT/openthaigpt_eval

Licenses

Source Code: License Apache Software License 2.0. Weight: Research and Commercial uses.

Sponsors

Last updated

Was this helpful?