OpenThaiGPT Version 1.0
เทคโนโลยีทางภาษาแบบ ChatGPT (Large Language Model) พัฒนาเพื่อคนไทยทุกคน
Last updated
เทคโนโลยีทางภาษาแบบ ChatGPT (Large Language Model) พัฒนาเพื่อคนไทยทุกคน
Last updated
🇹🇭 OpenThaiGPT เวอร์ชัน 1.0.0 เป็นโมเดลแชทภาษาไทยขนาดใหญ่ขนาด 7, 13 และ 70 พันล้านพารามิเตอร์ ซึ่งพัฒนาต่อยอดจาก Facebook LLaMA v2 ให้มีความสามารถในการเข้าใจและเขียนภาษาไทยได้ เปิดโค้ดและโมเดลอย่างเสรี (Opensource) ให้ทุกคนสามารถนำไปพัฒนาต่อยอดหรือแม้กระทั่งการทำการค้าได้ (Apache 2.0 License) เพื่อเป็น Infrastructure พื้นฐานด้านปัญญาประดิษฐ์สำหรับคนไทยทุกคน
รายละเอียดเพิ่มเติมอ่านต่อได้ที่ OpenThaiGPT 1.0.0 <8 Apr 2024>
สามารถโหลดโมเดล และใช้งานโมเดลได้ผ่าน google colab
https://colab.research.google.com/drive/1w1giDWhmq3WIUCK4AISFJtGIqiPDtRSC?usp=sharing
โมเดลภาษาไทย LLM แบบเปิดที่ทันสมัยที่สุด, ทำคะแนนสอบภาษาไทยได้เฉลี่ยสูงสุดเมื่อเทียบกับโมเดลภาษาไทยแบบเปิดอื่นๆ
เป็นโมเดลเปิดภาษาไทยที่มีขนาดใหญ่ถึง 70 พันล้านพารามิเตอร์โมเดลแรกของโลก
รองรับการสนทนาโต้ตอบหลายครั้งแบบต่อเนื่อง (Multi-turn Conversation)
โมเดลมีความสามารถในการค้นหาข้อมูลและสกัดคำตอบบน Prompt ที่มีความยาวได้อย่างมีประสิทธิภาพ (เหมาะสมกับการ RAG เป็นอย่างมาก)
ความเร็วในการตอบคำถามรวดเร็ว ด้วยการเพิ่มคำภาษาไทยที่พบบ่อยมากถึง 10,000 คำลงในพจนานุกรมของโมเดล
เรียนรู้บนข้อมูลภาษาไทย (Pretraining) กว่า 65 พันล้านคำ มีการกำจัดข้อมูลภาษาไทยซ้ำซ้อนที่ใช้ในเรียนรู้ (Deduplicated Dataset) และปรับจูนให้ตอบคำถามทั่วไปภาษาไทย (Finetuning) บนมากกว่า 1 ล้านตัวอย่าง
สามารถเข้าใจและประมวลผล บริบทของข้อมูลภาษาไทยได้ถึง 4096 คำ, ช่วยให้สามารถให้คำแนะนำที่ละเอียดและซับซ้อนได้
A-Level
17.50%
34.17%
25.00%
30.83%
45.83%
18.33%
34.17%
21.67%
17.50%
40.00%
37.50%
38.33%
65.83%
56.67%
55.83%
58.33%
59.17%
77.50%
TGAT
24.00%
22.00%
22.00%
36.00%
36.00%
14.00%
28.00%
24.00%
16.00%
34.00%
30.00%
28.00%
44.00%
22.00%
28.00%
36.00%
34.00%
46.00%
TPAT1
22.50%
47.50%
42.50%
27.50%
62.50%
22.50%
27.50%
22.50%
17.50%
40.00%
47.50%
45.00%
52.50%
52.50%
50.00%
52.50%
50.00%
62.50%
thai_investment_consultant_exams
8.00%
28.00%
76.00%
84.00%
68.00%
16.00%
28.00%
24.00%
16.00%
24.00%
32.00%
40.00%
64.00%
52.00%
32.00%
44.00%
64.00%
72.00%
facebook_beleble_tha_200
25.00%
45.00%
34.50%
39.50%
70.00%
13.50%
51.00%
27.00%
24.50%
63.00%
51.50%
50.00%
72.50%
65.00%
74.00%
63.50%
77.00%
90.00%
xcopa_th_200
45.00%
56.50%
49.50%
51.50%
74.50%
26.50%
47.00%
51.50%
48.50%
68.50%
65.00%
64.00%
82.00%
68.00%
74.00%
64.00%
80.00%
86.00%
xnli2.0_th_200
33.50%
34.50%
39.50%
31.00%
47.00%
21.00%
43.00%
37.50%
33.50%
16.00%
20.00%
50.00%
69.00%
53.00%
54.50%
50.00%
68.00%
68.50%
ONET M3
17.85%
38.86%
34.11%
39.36%
56.15%
15.58%
23.92%
21.79%
19.56%
21.37%
28.03%
37.91%
49.97%
55.99%
57.41%
52.73%
40.60%
63.87%
ONET M6
21.14%
28.87%
22.53%
23.32%
42.85%
15.09%
19.48%
16.96%
20.67%
28.64%
27.46%
34.44%
46.29%
45.53%
50.23%
34.79%
38.49%
48.56%
AVERAGE SCORE
23.83%
37.27%
38.40%
40.33%
55.87%
18.06%
33.56%
27.44%
23.75%
37.28%
37.67%
43.07%
60.68%
52.30%
52.89%
50.65%
56.81%
68.32%
การทดสอบด้วยการทำข้อสอบแบบ Multiple Choice ภาษาไทย ทดสอบบนชุดข้อสอบที่ไม่เคยเห็นมาก่อน ทดสอบแบบ Zero-shot Learning, โค้ดการทดสอบและเนื้อหาข้อสอบสามารถทำตามได้ที่นี่ >> https://github.com/OpenThaiGPT/openthaigpt_eval
Source Code: License Apache Software License 2.0. Weight: Research and Commercial uses.