OpenThaiGPT Version 1.0

เทคโนโลยีทางภาษาแบบ ChatGPT (Large Language Model) พัฒนาเพื่อคนไทยทุกคน

🇹🇭 OpenThaiGPT เวอร์ชัน 1.0.0 เป็นโมเดลแชทภาษาไทยขนาดใหญ่ขนาด 7, 13 และ 70 พันล้านพารามิเตอร์ ซึ่งพัฒนาต่อยอดจาก Facebook LLaMA v2 ให้มีความสามารถในการเข้าใจและเขียนภาษาไทยได้ เปิดโค้ดและโมเดลอย่างเสรี (Opensource) ให้ทุกคนสามารถนำไปพัฒนาต่อยอดหรือแม้กระทั่งการทำการค้าได้ (Apache 2.0 License) เพื่อเป็น Infrastructure พื้นฐานด้านปัญญาประดิษฐ์สำหรับคนไทยทุกคน

รายละเอียดเพิ่มเติมอ่านต่อได้ที่ OpenThaiGPT 1.0.0 <8 Apr 2024>

ดาวน์โหลดโมเดล

Model Pipeline

สามารถโหลดโมเดล และใช้งานโมเดลได้ผ่าน google colab

https://colab.research.google.com/drive/1w1giDWhmq3WIUCK4AISFJtGIqiPDtRSC?usp=sharing

จุดเด่น

  • โมเดลภาษาไทย LLM แบบเปิดที่ทันสมัยที่สุด, ทำคะแนนสอบภาษาไทยได้เฉลี่ยสูงสุดเมื่อเทียบกับโมเดลภาษาไทยแบบเปิดอื่นๆ

  • เป็นโมเดลเปิดภาษาไทยที่มีขนาดใหญ่ถึง 70 พันล้านพารามิเตอร์โมเดลแรกของโลก

  • รองรับการสนทนาโต้ตอบหลายครั้งแบบต่อเนื่อง (Multi-turn Conversation)

  • โมเดลมีความสามารถในการค้นหาข้อมูลและสกัดคำตอบบน Prompt ที่มีความยาวได้อย่างมีประสิทธิภาพ (เหมาะสมกับการ RAG เป็นอย่างมาก)

  • ความเร็วในการตอบคำถามรวดเร็ว ด้วยการเพิ่มคำภาษาไทยที่พบบ่อยมากถึง 10,000 คำลงในพจนานุกรมของโมเดล

  • เรียนรู้บนข้อมูลภาษาไทย (Pretraining) กว่า 65 พันล้านคำ มีการกำจัดข้อมูลภาษาไทยซ้ำซ้อนที่ใช้ในเรียนรู้ (Deduplicated Dataset) และปรับจูนให้ตอบคำถามทั่วไปภาษาไทย (Finetuning) บนมากกว่า 1 ล้านตัวอย่าง

  • สามารถเข้าใจและประมวลผล บริบทของข้อมูลภาษาไทยได้ถึง 4096 คำ, ช่วยให้สามารถให้คำแนะนำที่ละเอียดและซับซ้อนได้

ความสามารถด้านภาษาไทย (วัดโดยการทำข้อสอบภาษาไทยด้านความรู้ต่างๆ)

ExamsOTG 7b (Aug 2023)OTG 13b (Dec 2023)OTG 7b (April 2024)OTG 13b (April 2024)OTG 70b (April 2024)SeaLLM 7b v1SeaLLM 7b v2SeaLion 7bWanchanGLM 7bSailor-7b-ChatTyphoonGPT 7b InstructGPT3.5GPT4Gemini ProGemini 1.5Claude 3 HaikuClaude 3 SonnetClaude 3 Opus

A-Level

17.50%

34.17%

25.00%

30.83%

45.83%

18.33%

34.17%

21.67%

17.50%

40.00%

37.50%

38.33%

65.83%

56.67%

55.83%

58.33%

59.17%

77.50%

TGAT

24.00%

22.00%

22.00%

36.00%

36.00%

14.00%

28.00%

24.00%

16.00%

34.00%

30.00%

28.00%

44.00%

22.00%

28.00%

36.00%

34.00%

46.00%

TPAT1

22.50%

47.50%

42.50%

27.50%

62.50%

22.50%

27.50%

22.50%

17.50%

40.00%

47.50%

45.00%

52.50%

52.50%

50.00%

52.50%

50.00%

62.50%

thai_investment_consultant_exams

8.00%

28.00%

76.00%

84.00%

68.00%

16.00%

28.00%

24.00%

16.00%

24.00%

32.00%

40.00%

64.00%

52.00%

32.00%

44.00%

64.00%

72.00%

facebook_beleble_tha_200

25.00%

45.00%

34.50%

39.50%

70.00%

13.50%

51.00%

27.00%

24.50%

63.00%

51.50%

50.00%

72.50%

65.00%

74.00%

63.50%

77.00%

90.00%

xcopa_th_200

45.00%

56.50%

49.50%

51.50%

74.50%

26.50%

47.00%

51.50%

48.50%

68.50%

65.00%

64.00%

82.00%

68.00%

74.00%

64.00%

80.00%

86.00%

xnli2.0_th_200

33.50%

34.50%

39.50%

31.00%

47.00%

21.00%

43.00%

37.50%

33.50%

16.00%

20.00%

50.00%

69.00%

53.00%

54.50%

50.00%

68.00%

68.50%

ONET M3

17.85%

38.86%

34.11%

39.36%

56.15%

15.58%

23.92%

21.79%

19.56%

21.37%

28.03%

37.91%

49.97%

55.99%

57.41%

52.73%

40.60%

63.87%

ONET M6

21.14%

28.87%

22.53%

23.32%

42.85%

15.09%

19.48%

16.96%

20.67%

28.64%

27.46%

34.44%

46.29%

45.53%

50.23%

34.79%

38.49%

48.56%

AVERAGE SCORE

23.83%

37.27%

38.40%

40.33%

55.87%

18.06%

33.56%

27.44%

23.75%

37.28%

37.67%

43.07%

60.68%

52.30%

52.89%

50.65%

56.81%

68.32%

การทดสอบด้วยการทำข้อสอบแบบ Multiple Choice ภาษาไทย ทดสอบบนชุดข้อสอบที่ไม่เคยเห็นมาก่อน ทดสอบแบบ Zero-shot Learning, โค้ดการทดสอบและเนื้อหาข้อสอบสามารถทำตามได้ที่นี่ >> https://github.com/OpenThaiGPT/openthaigpt_eval

Licenses

Source Code: License Apache Software License 2.0. Weight: Research and Commercial uses.

Sponsors

Last updated