1 of 39

OpenThaiGPT

ยินดีต้อนรับสู่ OpenThaiGPT 1.6 และ OpenThaiGPT R1

โมเดลภาษาขนาดใหญ่ Free และ Opensource เพื่อคนไทยทุกคน

🇹🇭 OpenThaiGPT 1.6 72b โมเดลภาษาขนาดใหญ่รุ่นล่าสุด ได้รับการปรับปรุงจากรุ่น 1.5 และ 🧠 OpenThaiGPT R1 32b โมเดลด้านการคิดวิเคราะห์และให้เหตุผล และพร้อมให้บริการแล้ว โมเดลนี้ได้รับการพัฒนาเพื่อการใช้งานทั่วไปและมีความสามารถด้านการคิดเชิงเหตุผลที่แข็งแกร่ง โดยเฉพาะอย่างยิ่งในภาษาไทย

ทดลองใช้งาน

ทดลองใช้งานผ่าน ChindaX:

Web Demo!

Demo: https://demo72b.aieat.or.th/ Hosted by Siam.AI Cloud

Colab Demo!

Updated: 12/8/24

OpenThaiGPT version 1.0.0 or later

ตั้งแต่เวอร์ชัน 1.0.0 เป็นต้นไป สามารถใช้ colab นี้ในการ Load model, Finetune, Inference ได้

https://colab.research.google.com/drive/1w1giDWhmq3WIUCK4AISFJtGIqiPDtRSC?usp=sharing

OpenThaiGPT 13b 1.0.0-beta (with 4 bits)

Running on GPU T4 in Google Colab:

OpenThaiGPT 7b 1.0.0-beta

Running on GPU T4 in Google Colab:

Version 1.0.0-alpha

Running on GPU T4 in Google Colab:

Version 0.1.0-beta

Running on GPU T4 in Google Colab:

Version 0.1.0-alpha

Running on GPU A100 in Google Colab:

Version 0.0.4

Running on GPU T4 in Google Colab:

องค์กรที่ร่วมสนับสนุน (Sponsors)

กลุ่ม OpenThaiGPT

OpenThaiGPT ก่อตั้งโดยการร่วมมือกันของสองสมาคมปัญญาประดิษฐ์ประเทศไทย ประกอบไปด้วย

สมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย (AIEAT)
สมาคมปัญญาประดิษฐ์ประเทศไทย (AIAT)

และทีมงานจากองค์กรดังต่อไปนี้

ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค)
มหาวิทยาลัยมหิดล
Microsoft Thailand
บริษัท ไอแอพพ์เทคโนโลยี จำกัด

กฎกติกาความร่วมมือ (Rules)

เพื่อสร้างสิ่งแวดล้อมที่เหมาะสม และเปิดให้ทุกภาคส่วน สามารถเข้ามาช่วยกันพัฒนา OpenThaiGPT ได้อย่างมีประสิทธิภาพ ร่วมถึงกำหนดเป้าหมาย Goal ร่วมกันได้อย่างมีประสิทธิภาพ โดยมีกฎกติการ่วมกัน 3 ข้อดังต่อไปนี้

ผลงานที่เกิดจากโครงการทั้งหมดต้องอยู่ภายใต้ลิขสิทธิ์ดังต่อไปนี้
1. Source Code / Weight / Model = Apache 2.0

ร่วมกับเรา (Join Us)

เข้าร่วม Discord และลงทะเบียนอาสาสมัครข้างล่าง เพื่อเริ่มช่วยการพัฒนา

เข้าร่วม Discord (Discord Channel)

License

Model: APACHE LICENSE, VERSION 2.0

Dataset: CC BY-SA

Previous Versions and Resources

Released Code / Colabs

Pretraining LLM

InstructGPT Finetuning

Code ที่ใช้ Finetune OpenThaiGPT version 0.1.0-beta

Colabs ที่ใช้ Finetune OpenThaiGPT version 0.0.1

Reinforcement Learning with Human Feedback (RLHF)

TRL

RLHF on GPT-2

สอนให้ Model Generate ข้อความเชิงบวก (Positive Sentiment) ได้มากขึ้นด้วย PPO https://colab.research.google.com/drive/1qce78Q00SY7CKXLVtiSGFbP5C1V_nypn?usp=sharing

สอนให้ Model Generate ข้อความในเชิงบวก กลางๆ หรือเชิงลบ (Controlled Sentiment) โดยการกำหนด Prefix ใน Input

การช่วยกันสร้าง Dataset สนทนา Chat ภาษาไทย!

เว็บไซด์ที่ร่วมกันสร้าง Dataset สนทนา Chat ภาษาไทย

https://tag.openthaigpt.aieat.or.th/

เพื่อให้ทีมงาน OpenThaiGPT ได้รับ Dataset สำหรับในการพัฒนา Thai InstructGPT และ Reward Model (RM) ให้ได้เร็วที่สุด ทางทีมงานเลยพัฒนาเว็บไซด์ที่ใช้ร่วมกันสร้าง Dataset นี้โดยทำการ Fork มาจาก Website https://github.com/LAION-AI/Open-Assistant ที่เปิด Opensource ภายใตัอนุสัญญา Apache 2.0

Q/A

Q: ทำไมถึงเลือก Fork จากเว็บไซด์ของ Open Assistant และทำการ Host เอง ทำไมเราถึงไม่พัฒนาเอง หรือไม่ไปใช้ของ Open Assistant โดยตรงเลย? A: มีข้อดีหลายอย่างที่เลือกในการ Fork จากเว็บไซด์ Open Assistant

(1) ไม่เสียเวลาในการพัฒนาเอง (2) ได้รับ Update แก้ไข Bug จากทาง Open Assistant อยู่เสมอ (3) ผู้พัฒนา OpenThaiGPT ได้รับ Dataset ดิบทันที เมื่อมีคนมาสร้าง Dataset บนเว็บไซด์ ไม่ต้องรอให้ทาง Open Assistant ปล่อยข้อมูล (4) สามารถนำ Dataset จาก OpenThaiGPT ส่งต่อให้ทาง Open Assistant ได้โดยง่าย เนื่องจากสร้างมาจากระบบเดียวกัน (5) ได้ Pipeline และ Guideline ในการจัดทำ Dataset ที่เป็นมาตรฐานระดับโลก (6) เนื่องจากว่าเรา Focus ภาษาไทยภาษาเดียว ทำให้เราสามารถปล่อย Dataset ได้ถี่ขึ้น (ทุกวันอาทิตย์ของสัปดาห์) (7) สามารถขยายต่อยอดในงาน Tag ข้อมูลอื่นๆ ที่ทาง OpenThaiGPT อาจจะต้องใช้ในอนาคต หรือสามารถแก้ไขปรับปรุงระบบให้สนับสนุนภาษาในภูมิภาค South-east Asia อื่นๆ อาทิเช่น CLMV ได้ไวกว่า

----

Q: เว็บไซด์สร้าง Dataset ของ OpenThaiGPT เปิด Source code หรือไม่ A: เราเปิด Source code เว็บไซด์สร้าง Dataset ของ OpenThaiGPT ภายใตัอนุสัญญา Apache 2.0 ที่

Released OpenThaiGPT 13b <1.0.0-beta> (20/12/23)

🇹🇭 OpenThaiGPT 13b 1.0.0-beta (20 December 2023)

🇹🇭 OpenThaiGPT 13b Version 1.0.0-beta is a Thai language 13b-parameter LLaMA v2 Chat model further pretrained on Thai cleaned 15 billion tokens textual dataset, finetuned to follow Thai translated instructions and extend more than 10,000 most popular Thai words vocabularies into LLM's dictionary for turbo speed,

Change Logs

🇹🇭 OpenThaiGPT 13b Version 1.0.0-beta (Llama v2 + 15 billion Thai tokens pretrain + 10,000 Thai word extension)

Release date: 20 December 2023

License

Source Code: License Apache Software License 2.0. Weight: Research and Commercial uses.

Code and Weight

Colab demo: Finetune Code: Inference Code: Weights: (16 bits, Huggingface format) (16 bits and 4 bits, GGUF format)

Sponsors

Authors

Kobkrit Viriyayudhakorn ([email protected])
Sumeth Yuenyong ([email protected])
Prachya Boonkwan ([email protected], [email protected])
Thaweewat Rugsujarit ([email protected])

แผนการดำเนินงาน Roadmap

Open Resources

เรารวบรวมทรัพยากรทั้งหมดเพื่อในการสร้าง OpenThaiGPT ให้สำเร็จโดย Open Resources ของเราที่จะเปิด เราจะเปิดให้ตามสิทธิดังต่อไปนี้

Resource

Description

Open to

Link

Free Working Datasets

For OpenThaiGPT

Pretraining

Finetuning

Computing Resources

Previous Events

OpenThaiGPT Meet Up #2

งานเสวนา ความท้าทาย ความเป็นไปได้ และโอกาสของ ChatGPT สัญชาติไทย

สถานที่/วันเวลา

วันจันทร์ที่ 24 เมษายน เวลา 13:00น - 15:30น สถานที่ ห้องแถลงข่าว (ชั้น 1) กระทรวง อว. 70 ที่นั่ง https://goo.gl/maps/EJsndV6thHfdA8gC8

กำหนดการ <ร่าง>

เวลา

กิจกรรม

การเดินทาง

Core-team Volunteer Meeting 19 March 15:30

สวัสดีครับ ทุกท่าน ผม ดร.ซี นะครับ วันพรุ่งนี้ (วันอาทิตย์ที่ 19 มีนาคม 2566) จะมีประชุม Core Team ของทีม OpenThaiGPT ตั้งแต่ 15:30 น - 17:30 น ขอเรียนเชิญหัวหน้าทีมทุกท่านและทีมประสานงานทั้งหมดเข้าร่วมประชุมนะครับ หรือ Volunteer ท่านอื่นๆ ที่สนใจอยากจะออกความคิดเห็นก็เรียนเชิญนะครับ

หัวข้อการประชุม

ประชุมกำหนดหน้าที่ Core Team
กำหนดเป้าหมายร่วมกันให้ชัดเจนสำหรับ OpenThaiGPT 1.0.0

Finetuning / RLHF Volunteer Event (18 March)

ขออนุญาตประชาสัมพันธ์นะครับ สวัสดีครับ ผม ดร. สุเมธ นะครับ

ขอชวนเชิญอาสาสมัครท่านที่สนใจ Finetuning / RLHF Volunteer เข้าร่วมงาน First Meet ของทีม Finetuning / RLHF Volunteer ใน วันเสาร์ที่ 18 มีนาคม 2566 เวลา 13:00-14:00 ครับ

โดยเป้าหมายหลักของกิจกรรมในครั้งนี้เพื่อ จัดกลุ่มอาสาสมัครทุกท่านเป็นทีมย่อยๆ และหาตัวแทนของแต่ละกลุ่มย่อย ที่จะมาช่วยกันพัฒนา Finetuning / RLHF Volunteer ครับ

Agenda ของกิจกรรม First Meet ครับ:

- 13:00-13:30 แนะนำ Finetuning / RLHF และอธิบายถึงความสำคัญ รวมถึงแผนการปัจจุบัน - 13:30-13:40 อธิบายถึงกลุ่มย่อย และหน้าที่ - 13:40-13:50 Q&A - 13:50-14:00 อาสาสมัครลงชื่อเข้ากลุ่มที่ต้องการ Join Zoom Meeting https://us06web.zoom.us/j/89540845246?pwd=dzVmSzFJVWpwVFkwMjZ0VVAyalBPUT09 Meeting ID: 895 4084 5246 Passcode: 005687

---

Safety Net Volunteer Event (12 March 19:00-19:45)

ขออนุญาตประชาสัมพันธ์นะครับ สวัสดีครับ ผมโอ๊ตจากทีม SafetyNet นะครับ

ขอรบกวนชวนเชิญอาสาสมัครท่านที่สนใจ SafetyNet เข้าร่วมงาน First Meet ของทีม SafetyNet ใน วันอาทิตย์ที่ 12 มีนาคม 2566 เวลา 19:00-19:45 ครับ

โดยเป้าหมายหลักของกิจกรรมในครั้งนี้เพื่อ จัดกลุ่มอาสาสมัครทุกท่านเป็นทีมย่อยๆ และหาตัวแทนของแต่ละกลุ่มย่อย ที่จะมาช่วยกันพัฒนา SafetyNet ครับ

Agenda ของกิจกรรม First Meet ครับ:

- 19:00-19:10 แนะนำ SatetyNet และอธิบายถึงความสำคัญ รวมถึงแผนการปัจจุบัน - 19:10-19:25 อธิบายถึงกลุ่มย่อย และหน้าที่ - 19:25-19:30 QA - 19:30-19:45 อาสาสมัครลงชื่อเข้ากลุ่มที่ต้องการ ลิงค์ซูมสำหรับ First meet up ครับผม วันที่ 12 มีนาคม 2566 เวลา 19.00 น. Join Google Meet link: https://meet.google.com/nhj-mrin-jvx

Pre-training Volunteer Event (11 March 19:00-20:15)

สตาฟนิวจากทีม Pre-training นะครับ

ขอเรียนเชิญอาสาสมัครทุกท่านมาเข้าร่วมกิจกรรม First Meet ทีม Pretraining วันเสาร์ที่ 11 มีนาคม 2566

เวลา 19:00-20:15 ครับ Agenda ของกิจกรรม First Meet ครับ:

- 19:00-19:15 Dr. Prachya Boonkwan กล่าวต้อนรับและแนะนำทีม Pretraining - 19:15-19:45 แนะนำ 6 Working Groups ย่อยในทีม Pretraining และหน้าที่ของแต่ล่ะ Group - 19:45-20:00 QA - 20:00-20:15 เปิดให้ลงชื่อสมัครเข้า Working Groups ต่างๆ ลิงค์ซูมสำหรับ PPLM - First meet up ครับผม วันที่ 11 มีนาคม 2566 เวลา 19.00 น. Join Zoom Meeting https://zoom.us/j/96353648642?pwd=emNQOXdTZlZpSGoxbXdBb3FlYnMrUT09 Meeting ID: 963 5364 8642 Passcode: 594712

Volunteer Meetup #1 (Zoom) 5 March 13:00

เว็บลงทะเบียนทีมอาสาสมัครครับ

https://docs.google.com/spreadsheets/d/1r2jDImNEBxhds_X0Xs0mZVOr26mWYvDgRwCnv-g-RJc/edit#gid=0

สไลด์ของ ดร.ซี ครับ

สไลด์ของ ดร.ปรัชญา ครับ

Agenda

Time

Agenda

First Meet Up (25 Feb 2023)!

Youtube Video

Video Youtube ของงาน Event OpenThaiGPT: The First Meetup ครับผม

Registration (ลงทะเบียน)

ปิดการลงทะเบียนแล้ว ขอบพระคุณที่สนใจทุกท่านครับ เต็มแน่นจริงๆ มีน้ำ ชา กาแฟ และ ขนมเบรก (By iApp) มีปลั๊กไฟและอินเตอร์เน็ตให้ ไม่มีค่าใช้จ่าย (ฟรี) จอดรถได้ 4 ชม. ฟรี ถ่ายทอดสดผ่านช่องทาง Zoom URL: ---

Agenda

Time

Agenda

---

Avenue

วันเสาร์ที่ 25 กุมภาพันธ์ 2023 เวลา 13:00น - 17:00น มาคุยกันครับ The Street Ratchada W50 Workwize ชั้น 3 The Street รัชดา 139 รัชดาภิเษก ถนนดินแดง กรุงเทพมหานคร 10400 เบอร์โทร 086-322-5858 เดินจากสถานีรถไฟใต้ดิน MRT ศูนย์วัฒนธรรม ประมาณ 550m

ChatGPT สร้างขึ้นมาได้อย่างไร (How to build ChatGPT?)

การช่วยกันสร้าง Dataset สนทนา Chat ภาษาไทย!

เว็บไซด์ที่ร่วมกันสร้าง Dataset สนทนา Chat ภาษาไทย

https://tag.openthaigpt.aieat.or.th/

Q/A

----

การเข้าถึงทรัพยากร (Open Resource) เป็นไปตามข้อมูลหน้า Open Resourcesโดยจะมีทรัพยากรบางส่วนที่เข้าถึงได้เฉพาะกลุ่มอาสาสมัครเท่านั้น ซึ่งกระบวนการมีดังต่อไปนี้

ลงทะเบียนเป็นหนึ่งในสมาชิกทีมอาสาสมัคร
เริ่มต้น Contribute ให้โครงการโดยวิธีการใดๆก็ได้ ตามหัวหน้าทีมอาสาสมัครนั้นๆกำหนด อาทิเช่น
1. ทีม Data Label Website:
  1. ช่วยในการพัฒนาเว็บไซด์ Tag ข้อมูล อย่างน้อย 1 commit
2. ทีม InstructDatset:
  1. ช่วย Tag InstructDataset อย่างน้อย 10 คู่สนทนา
3. ทีม RLHF
  1. ช่วยเรียงลำดับผลการ Generate ของ Model เพื่อสร้าง Reward Model อย่างน้อย 10 คู่สนทนา
4. ทีม Pretraining
  1. ช่วยทำความสะอาดข้อมูล Pretraining อย่างน้อย 10 บทความ
  2. ร่วมทำการทดลองหาโครงสร้าง LM ที่เหมาะสม อย่างน้อย 1 รูปแบบ
5. ทีมพัฒนา OpenThaiGPT Library
  1. ช่วยพัฒนา PIP OpenThaiGPT Library อย่างน้อย 1 commit
6. อื่นๆ ตามความเหมาะสม
หัวหน้าทีมอาสาสมัครแจ้งรายชื่อให้กับทีมประสานงาน เพื่ออัพเดทรายชื่อขึ้นเว็บไซด์และเปิดให้เข้าถึงข้อมูลต่อไป

import openthaigpt

# OpenThaiGPT Model 0.1.0-beta
print(openthaigpt.generate(instruction="แปลภาษาอังกฤษเป็นภาษาไทย", 
        input="We want to reduce weight.", 
        model_name = "kobkrit/openthaigpt-0.1.0-beta", 
        min_length=50, max_length=300, top_p=0.75, 
        top_k=40, num_beams=1, no_repeat_ngram_size=0, 
        temperature=0.1, early_stopping=True, load_8bit=False))
# เราต้องการลดน้ำหนัก.

# OpenThaiGPT Model 0.1.0-alpha
print(openthaigpt.generate(instruction="อธิบายขั้นตอนการทำข้าวผัดไก่", 
        input="", model_name = "kobkrit/openthaigpt-0.1.0-alpha", 
        min_length=50, max_length=768, top_k=20,
        num_beams=5, no_repeat_ngram_size=10, temperature=1.5,
        early_stopping=True))
# ขั้นตอนการทำข้าวผัดไก่ ได้แก่ 1. เตรียมไก่และน้ำมันมะพร้าว 2. นำไปผสมกับเนยขาว 3. ใส่เนื้อหมูที่เหลืออยู่ในเครื่องปรุงอาหาร 4. เพิ่มไข่เจียระเบียบ 5. นำผักผัก 6. เต็มไปด้วยแป้งสำหรับผัด 7. ผสานข้อมูลของคุณให้แน่ใจว่าไก่&quot;จะเป็นส่วนประกอบทั้งหมด&quot; 8. นำໄก่ไปใช้ในกระท่อมที

# OpenThaiGPT Model 0.0.4
print(openthaigpt.generate("Q: อยากลดความอ้วนทำไง\n\nA:"))
# Q: อยากลดความอ้วนทำไง
#
# A: การลดน้ำหนักเป็นสิ่งที่สำคัญที่สุดสำหรับการลดไขมันในร่างกาย ดังนั้นคุณควรปรึกษาแพทย์หรือผู้เชี่ยวชาญด้านสุขภาพก่อนที่จะตัดสินใจว่าจะเลือกใช้ผลิตภัณฑ์ใดในการรักษาหรือไม่ อย่างไรก็ตาม หากคุณรู้สึกว่าตัวเองมีปัญหาในเรื่องนี้ คุณสามารถติดต่อแพทย์เพื่อสอบถามข้อมูลเพิ่มเติมเกี่ยวกับวิธีการแก้ไขปัญหานี้ได้เช่นกัน นอกจากนี้คุณยังสามารถพูดคุยกับคนอื่น ๆ เพื่อช่วยให้คำปรึกษาที่ดียิ่งขึ้นได้อีกด้วยค่ะ ขอบคุณที่มา: https://www.facebook.com/pages/%E0%B8%A8-in-the-circle-healthy-make-up.html?mibextid=a&browse=b&country=1&fb=&idx=0&pageb

#####################

# OpenThaiGPT-Zero

# ข้อความจาก OpenThaiGPT
openthaigpt.zero("การลดน้ำหนักเป็นเรื่องที่ต้องพิจารณาอย่างละเอียดและรอบคอบเพื่อให้ได้ผลลัพธ์ที่ดีและมีประสิทธิภาพมากที่สุด")
# {'perplexity': 2.4544131755828857,
# 'threshold': 10,
# 'isGeneratedFromOpenThaiGPT': True}

# ข้อความจาก OpenAI ChatGPT
openthaigpt.zero("สวัสดีครับ มีอะไรให้ผมช่วยเหลือหรือไม่ครับ?")
# {'perplexity': 4.949122428894043,
# 'theshold': 10,
# 'isGeneratedFromOpenThaiGPT': True}

# ข้อความจากมนุษย์
openthaigpt.zero("ทดสอบครับผม")
# {'perplexity': 1758.141357421875,
# 'threshold': 10,
# 'isGeneratedFromOpenThaiGPT': False}

# แสดงวิธีการปรับ threshold
openthaigpt.zero("สวัสดีครับ", threshold=5)
# {'perplexity': 8.109768867492676,
# 'theshold': 5,
# 'isGeneratedFromOpenThaiGPT': False}

Released Models Version <0.1.0-beta> (16/05/23)

Version 0.1.0-beta (16 May 2023)

Demo:

Change Logs

Version 0.1.0-beta (Facebook LLama Model)

Release date: 16 May 2023

OpenThaiGPT Version 0.1.0-beta is a 7B-parameter LLaMA model finetuned to follow Thai translated instructions below and makes use of the Huggingface LLaMA implementation.

Statistics

Number of parameters: 7B Dimension: 4096 Max Length Token: 2048 n heads: 32 n layers: 32 n tokens: 1T

License

Source Code: License Apache Software License 2.0. Weight: For research use only (due to the Facebook LLama's Weight LICENSE). Note that: A commercial use license for OpenThaiGPT 0.1.0 weight will be released later soon!

Code and Weight

Finetune Code: Inference Library: Weight (Lora Adapter):

Authors

Kobkrit Viriyayudhakorn ([email protected]), Sumeth Yuenyong ([email protected]) and Thaweewat Rugsujarit ([email protected]).

Trained Datasets

Dataset Name

Instruction Pairs

Descriptions

---

Version 0.1.0-alpha (ByT5-XL Model)

Release date: 24 April 2023 PoC Testing Website: Model and Weight: PIP Installation Page: Code Example: ----

OpenThaiGPT version 0.1.0-alpha

Thai First 3 billion params models

First Thai Byte-Level Text-to-Text Transfer Transformer
Support Instruction following
- Translation to Thai
- Explanation

PoC Version 0.0.4 (The Fourth PoC Version)

Release date: 12 March 2023 PoC Testing Website: Model and Weight: PIP Installation Page: Code Example: ----

OpenThaiGPT version 0.0.4

The Fourth PoC Model

ตอบคำถามได้ลงรายละเอียดมากขึ้น และตอบคำถามได้ดีขึ้นกว่า 0.0.3 เป็นส่วนมาก
Pretraining Model: GPT-2 Thai-base
InstructDataset: 300,000 Pantip + 5,000 Wiki QA => 12,920 Thai InstructGPT
RLHF: None

PoC Version 0.0.3 (The Third PoC Version)

Release date: 28 February 2023 Model and Weight: PIP Installation Page: Code Example: ----

OpenThaiGPT version 0.0.3

The Third PoC Model

Pretraining Model: GPT-2 Thai-base
InstructDataset: 300,000 Pantip + 5,000 Wiki QA => 7,000 Thai InstructGPT
RLHF: None
Developer: Kobkrit Viriyayudhakorn ([email protected])

PoC Version 0.0.2 (The Second PoC Version)

Release date: 27 February 2023 Model and Weight: PIP Installation Page: {Coming Soon} Colab Example: {Coming Soon} ----

OpenThaiGPT version 0.0.2

The Second PoC Model

Pretraining Model: GPT-2 Thai-base
InstructDataset: 7,000 Thai InstructGPT
RLHF: None

Developer: Kobkrit Viriyayudhakorn ([email protected])

PoC Version 0.0.1 (Very First PoC Version)

Release date: 20 February 2023 Model and Weight: PIP Installation Page: {Coming Soon} Colab Example: {Coming Soon} ----

The Very First PoC Model

Pretraining Model: GPT-2 Thai-base
InstructDataset: 298,678 QA Pairs getting from 70,000 Pantip katoos + Wikipedia QA by iApp
RLHF: None
Developer: Kobkrit Viriyayudhakorn ([email protected])

prompt (required): The input text to generate completions for.
max_tokens (optional): The maximum number of tokens to generate. Defaults to 16.
temperature (optional): Controls randomness in generation. Higher values (e.g., 0.8) make output more random, lower values (e.g., 0.2) make it more focused. Defaults to 1.0.
top_p (optional): An alternative to temperature, called nucleus sampling. Keeps the model from considering unlikely options. Defaults to 1.0.
n (optional): How many completions to generate for each prompt. Defaults to 1.
stream (optional): Whether to stream back partial progress. Defaults to false.
logprobs (optional): Include the log probabilities on the logprobs most likely tokens. Defaults to null.
echo (optional): Echo back the prompt in addition to the completion. Defaults to false.
stop (optional): Up to 4 sequences where the API will stop generating further tokens.
presence_penalty (optional): Number between -2.0 and 2.0. Positive values penalize new tokens based on whether they appear in the text so far. Defaults to 0.
frequency_penalty (optional): Number between -2.0 and 2.0. Positive values penalize new tokens based on their existing frequency in the text so far. Defaults to 0.
best_of (optional): Generates best_of completions server-side and returns the "best" (the one with the highest log probability per token). Defaults to 1.
logit_bias (optional): Modify the likelihood of specified tokens appearing in the completion.
user (optional): A unique identifier representing your end-user, which can help OpenAI to monitor and detect abuse.

อัพเดท! จากทีม Finetune (8 Apr)

8 Apr 2023

สวัสดีครับ ทุกท่าน  ทางผม (ดร.ซี) และ ดร. สุเมธ (พี่เต้ย) มาขออัพเดทสถานการณ์ทีม Finetuning หน่อยครับ จากประชุมครั้งที่แล้ว เรามีเปลี่ยนทิศทางครับ TLDR; หลักๆคือ ปรับแผนครับบบ!! จาก RLHF -> Self-Instruct ครับ

InstructGPT ใช้ Data และ Labour เยอะมาก

เมื่อเดือนที่แล้ว เราจะทำ Model ออกมาด้วยเทคนิค InstructGPT ตาม Paper ของ OpenAI ครับ () ที่เป็นเทคนิคใช้เทรน ChatGPT ซึ่งการ Finetuning Model ประกอบไปด้วย 3 ส่วนหลักๆ

(1) Pre-training ภาษาที่ใหญ่พอและที่เทรนมามากพอ (2) Finetuning บน Dataset InstructGPT (3) RLHF ให้คุณภาพดีขึ้น โดยส่วนที่ (1) เราให้ทีม จัดการไปครับ ส่วนที่ (2) เราใช้ Dataset จาก ThaiInstructGPT ที่เอาคำถามมาจากเว็บไซด์ Pantip เป็นต้นแบบและเก็บคำตอบจาก ChatGPT ซึ่งส่วนมากจะเป็นคำถามองค์ความรู้ทั่วไป แต่ก็ยังขาดชุดคำถาม-คำตอบที่เป็นคำสั่งละเอียดๆ อาทิเช่น คำสั่งแปลภาษา, คำสั่งแก้โค้ด, คำสั่งให้ตอบข้อสอบองค์ความรู้จาก O-net, คำสั่งเขียนโค้ด, คำสั่งที่แสดงถึงความฉลาดต่างๆ, และคำสั่งที่เป็นแบบ Few-shot Learning ครับ

Title: วัดธาตุทอง (Wat That Thong)
Content: วัดธาตุทอง พระอารามหลวง ตั้งเมื่อปีพุทธศักราช ๒๔๘๑ และได้รับพระราชทานวิสุงคามสีมา เมื่อวันที่ ๒๔ ตุลาคม พุทธศักราช ๒๔๘๓(เขตวิสุงคามสีมา กว้าง ๔๐ เมตร ยาว ๘๐ เมตร) ผูกพัทธสีมา ฝังลูกนิมิตอุโบสถ เมื่อวันที่ ๒ ๘ กุมภาพันธ์ พุทธศักราช ๒๕๐๕ มีเนื้อที่ ๕๔ ไร่ ๓ งาน ๘๒ ตาราง(เลขที่ ๑๔๙ โฉนดที่ ๔๐๓๗)

ทิศเหนือ ติดกับที่ดินและบ้านเรือนประชาชน(ซอยชัยพฤกษ์)

ทิศใต้ ติดกับถนนสุขุมวิท

ทิศตะวันออก ติดกับที่ดินและบ้านเรือนประชาชน(ซอยเอกมัย)

วัดธาตุทองฯ แท้จริงแล้วมีประวัติความเป็นมายาวนาน ย้อนกลับไปถึงยุคสมัยสุโขทัยเป็นราชธานี ก่อนจะมาตั้งอยู่บนนถนนสุขุมวิทในปัจจุบัน

Nearby Location: ตั้งอยู่ริมถนนสุขุมวิท แขวงพระโขนงเหนือ เขตวัฒนา
Address: 1325
Region: ภาคกลาง
Alley: 
Road: สุขุมวิท
Subdistrict: 
District: วัฒนา
Province: กรุงเทพมหานคร
Category: แหล่งท่องเที่ยวทางประวัติศาสตร์ และวัฒนธรรม
Sub Type: ศาสนสถาน (วัด/โบสถ์/มัสยิด ฯลฯ)
Facilities Contact: 
Telephone: 0 2390 0261, 0 2391 1007
Email: 
Website: 
Facebook: 
Instagram: 
Line: 
TikTok: 
YouTube: 
Start-End: 05.30 21.00น.
Activity: 
Suitable Duration: 
Fee (TH): 
Fee (TH Kid): 
Fee (EN): 
Fee (EN Kid): 
Remark: 
Location: 13.7194087, 100.5857861
UUID: 1ed676ed-4161-40f6-9e3d-12f4db53851d
Created Date: 2024-09-23
Updated Date: 2024-09-23
URL: 
Published Date:

>>>Request
curl --location 'http://localhost:5000/completions' \
--header 'Content-Type: application/json' \
--data '{
    "prompt": "วัดพระแก้ว กทม. คืออะไร",
    "max_tokens": 2048,
    "temperature": 0.7
}'

<<<Response
{
    "choices": [
        {
            "finish_reason": "stop",
            "index": 0,
            "logprobs": null,
            "prompt_logprobs": null,
            "stop_reason": null,
            "text": "วัดพระแก้ว (Wat Phra Kaeo) ตั้งอยู่ในจังหวัดชัยนาท สร้างในสมัยเดียวกับวัดมหาธาตุ ตั้งแต่ปี พ.ศ. 1900 วัดพระแก้วมีเจดีย์ทรงสูง ลักษณะเป็นเจดีย์แบบละโว้ผสมกับเจดีย์ทวารวดีตอนปลาย สร้างแบบสอปูน เป็นเจดีย์ฐานสี่เหลี่ยม มีพระพุทธรูปปั้นแบบนูนสูงประดับทั้งสี่ด้าน วัดพระแก้วมีพระสถูป เจดีย์ และพระพุทธรูปศิลาแลงสีแดง คือ หลวงพ่อทันใจ ที่อยู่ในวิหารด้านหน้าพระเจดีย์สี่เหลี่ยม วัดพระแก้วตั้งอยู่นอกเมืองทางด้านทิศใต้ ห่างจากวัดมหาธาตุประมาณ 3 กม. ปัจจุบันวัดพระแก้วอยู่กลางทุ่งนา มีพระเจดีย์เหลี่ยมเป็นหลักของวัด วัดพระแก้วเป็นโบราณสถานที่มีความสำคัญทางประวัติศาสตร์และศิลปะ ซึ่งได้รับการขึ้นทะเบียนเป็นโบราณสถานโดยกรมศิลปากรเมื่อวันที่ 8 มีนาคม 2478."
        }
    ],
    "created": 1728035246,
    "id": "cmpl-e0e5752f01e34d2bb701f86fad3b4954",
    "model": ".",
    "object": "text_completion",
    "usage": {
        "completion_tokens": 386,
        "prompt_tokens": 4946,
        "total_tokens": 5332
    }
}

Released Models Version <1.0.0-alpha> (03/08/23)

🇹🇭 OpenThaiGPT 1.0.0-alpha (3 August 2023)

🇹🇭 OpenThaiGPT Version 1.0.0-alpha is the first Thai implementation of a 7B-parameter LLaMA v2 Chat model finetuned to follow Thai translated instructions and makes use of the Huggingface LLaMA implementation.

Web Demo:

Colab Demo:

Change Logs

🇹🇭 Version 1.0.0-alpha (Facebook LLama V2 Model)

Release date: 3 August 2023

Changes

(1) Using Facebook LLama v2 model 7b chat as a base model which is pretrained on over 2 trillion token. (2) Context Length is upgrade from 2048 token to 4096 token (3) Allow research and commerical use.

License

Source Code: License Apache Software License 2.0. Weight: Research and commercial uses.

Code and Weight

Colab Demo: Finetune Code: (Same code as OpenThaiGPT 0.1.0-beta) Inference Library: Weight (Lora Adapter): Weight (Huggingface Checkpoint):

Authors

Kobkrit Viriyayudhakorn ([email protected])
Sumeth Yuenyong ([email protected])
Thaweewat Rugsujarit ([email protected])
Jillaphat Jaroenkantasima ([email protected])

---

Version 0.1.0-beta (Facebook LLama Model)

Release date: 16 May 2023

OpenThaiGPT Version 0.1.0-beta is a 7B-parameter LLaMA model finetuned to follow Thai translated instructions below and makes use of the Huggingface LLaMA implementation.

Statistics

Number of parameters: 7B Dimension: 4096 Context Length: 2048 n heads: 32 n layers: 32 n tokens: 1T

License

Code and Weight

Finetune Code: Inference Library: Weight (Lora Adapter):

Authors

Kobkrit Viriyayudhakorn ([email protected]), Sumeth Yuenyong ([email protected]) and Thaweewat Rugsujarit ([email protected]).

Trained Datasets

Dataset Name

Instruction Pairs

Descriptions

---

Version 0.1.0-alpha (ByT5-XL Model)

Release date: 24 April 2023 PoC Testing Website: Model and Weight: PIP Installation Page: Code Example: ----

OpenThaiGPT version 0.1.0-alpha

Thai First 3 billion params models

First Thai Byte-Level Text-to-Text Transfer Transformer
Support Instruction following
- Translation to Thai
- Explanation

PoC Version 0.0.4 (The Fourth PoC Version)

Release date: 12 March 2023 PoC Testing Website: Model and Weight: PIP Installation Page: Code Example: ----

OpenThaiGPT version 0.0.4

The Fourth PoC Model

ตอบคำถามได้ลงรายละเอียดมากขึ้น และตอบคำถามได้ดีขึ้นกว่า 0.0.3 เป็นส่วนมาก
Pretraining Model: GPT-2 Thai-base
InstructDataset: 300,000 Pantip + 5,000 Wiki QA => 12,920 Thai InstructGPT
RLHF: None

PoC Version 0.0.3 (The Third PoC Version)

Release date: 28 February 2023 Model and Weight: PIP Installation Page: Code Example: ----

OpenThaiGPT version 0.0.3

The Third PoC Model

Pretraining Model: GPT-2 Thai-base
InstructDataset: 300,000 Pantip + 5,000 Wiki QA => 7,000 Thai InstructGPT
RLHF: None
Developer: Kobkrit Viriyayudhakorn ([email protected])

PoC Version 0.0.2 (The Second PoC Version)

Release date: 27 February 2023 Model and Weight: PIP Installation Page: {Coming Soon} Colab Example: {Coming Soon} ----

OpenThaiGPT version 0.0.2

The Second PoC Model

Pretraining Model: GPT-2 Thai-base
InstructDataset: 7,000 Thai InstructGPT
RLHF: None

Developer: Kobkrit Viriyayudhakorn ([email protected])

PoC Version 0.0.1 (Very First PoC Version)

Release date: 20 February 2023 Model and Weight: PIP Installation Page: {Coming Soon} Colab Example: {Coming Soon} ----

The Very First PoC Model

Pretraining Model: GPT-2 Thai-base
InstructDataset: 298,678 QA Pairs getting from 70,000 Pantip katoos + Wikipedia QA by iApp
RLHF: None
Developer: Kobkrit Viriyayudhakorn ([email protected])

OpenThaiGPT Version 1.0

เทคโนโลยีทางภาษาแบบ ChatGPT (Large Language Model) พัฒนาเพื่อคนไทยทุกคน

🇹🇭 OpenThaiGPT เวอร์ชัน 1.0.0 เป็นโมเดลแชทภาษาไทยขนาดใหญ่ขนาด 7, 13 และ 70 พันล้านพารามิเตอร์ ซึ่งพัฒนาต่อยอดจาก Facebook LLaMA v2 ให้มีความสามารถในการเข้าใจและเขียนภาษาไทยได้ เปิดโค้ดและโมเดลอย่างเสรี (Opensource) ให้ทุกคนสามารถนำไปพัฒนาต่อยอดหรือแม้กระทั่งการทำการค้าได้ (Apache 2.0 License) เพื่อเป็น Infrastructure พื้นฐานด้านปัญญาประดิษฐ์สำหรับคนไทยทุกคน

รายละเอียดเพิ่มเติมอ่านต่อได้ที่ OpenThaiGPT 1.0.0 <8 Apr 2024>

ดาวน์โหลดโมเดล

7b -
7b (GGUF) -
13b -
70b -

Model Pipeline

สามารถโหลดโมเดล และใช้งานโมเดลได้ผ่าน google colab

จุดเด่น

โมเดลภาษาไทย LLM แบบเปิดที่ทันสมัยที่สุด, ทำคะแนนสอบภาษาไทยได้เฉลี่ยสูงสุดเมื่อเทียบกับโมเดลภาษาไทยแบบเปิดอื่นๆ
เป็นโมเดลเปิดภาษาไทยที่มีขนาดใหญ่ถึง 70 พันล้านพารามิเตอร์โมเดลแรกของโลก
รองรับการสนทนาโต้ตอบหลายครั้งแบบต่อเนื่อง (Multi-turn Conversation)
โมเดลมีความสามารถในการค้นหาข้อมูลและสกัดคำตอบบน Prompt ที่มีความยาวได้อย่างมีประสิทธิภาพ (เหมาะสมกับการ RAG เป็นอย่างมาก)

ความสามารถด้านภาษาไทย (วัดโดยการทำข้อสอบภาษาไทยด้านความรู้ต่างๆ)

Exams

OTG 7b (Aug 2023)

OTG 13b (Dec 2023)

OTG 7b (April 2024)

OTG 13b (April 2024)

OTG 70b (April 2024)

SeaLLM 7b v1

SeaLLM 7b v2

SeaLion 7b

WanchanGLM 7b

Sailor-7b-Chat

TyphoonGPT 7b Instruct

GPT3.5

GPT4

Gemini Pro

Gemini 1.5

การทดสอบด้วยการทำข้อสอบแบบ Multiple Choice ภาษาไทย ทดสอบบนชุดข้อสอบที่ไม่เคยเห็นมาก่อน ทดสอบแบบ Zero-shot Learning, โค้ดการทดสอบและเนื้อหาข้อสอบสามารถทำตามได้ที่นี่ >>

Licenses

Source Code: License Apache Software License 2.0. Weight: Research and Commercial uses.

OpenThaiGPT 1.0.0 <8 Apr 2024>

🇹🇭 OpenThaiGPT 1.0.0

More Info

🇹🇭 OpenThaiGPT 7b, 13b, 70b Version 1.0.0 is an advanced 7, 13, 70-billion-parameter Thai language chat model based on LLaMA v2 released on April 8, 2024. It has been specifically fine-tuned for Thai instructions and enhanced by incorporating over 10,000 of the most commonly used Thai words into the large language model's (LLM) dictionary, significantly boosting its response speed.

Highlights

Leading-edge Thai language LLM, setting new benchmarks by achieving the highest average scores across several Thai language exams when compared to all other open-source Thai LLMs.
The First 70b Thai opensource LLM, achieving the higher Thai exams than OpenAI GPT 3.5, Google Gemini, and Claude 3 Haiku.
Support for extended conversations across multiple turns.
Support the use case of Retrieval Augmented Generation (RAG)

Download Models from Huggingface

7b - 7b (GGUF) - 13b - 70b -

Pipeline

Benchmark by OpenThaiGPT Eval

** Please take a look at OTG 7b, 13b and 70b (April 2024) for this model's evaluation result.

Thai language multiple choice exams, Test on unseen test sets, Zero-shot learning. Benchmark source code and exams information:

(Updated on: 7 April 2024)

Licenses

Source Code: License Apache Software License 2.0. Weight: Research and Commercial uses.

Supports

Official website:
Facebook page:
A Discord server for discussion and support
E-mail:

Prompt Format

Prompt format is based on Llama2 with a small modification (Adding "###" to specify the context part)

System prompt:

Examples

Single Turn Conversation Example

Single Turn Conversation with Context (RAG) Example

Multi Turn Conversation Example

First turn

Second turn

Third turn

Fourth turn

Multi Turn Conversation with Context (RAG) Example

How to use

Huggingface

vLLM

Install VLLM ()
Run server

Run inference (CURL example)

LlamaCPP (for GGUF)

Build and Install LlamaCPP (LLAMA_CUBLAS=1 is for GPU inference)

Run server

Run inference (CURL example)

GPU Memory Requirements

Authors

Kobkrit Viriyayudhakorn ()
Sumeth Yuenyong ()
Thaweewat Rugsujarit ()
Jillaphat Jaroenkantasima ()

Disclaimer: Provided responses are not guaranteed.

<s>[INST] <<SYS>
You are a question answering assistant. Answer the question as truthful and helpful as possible คุณคือผู้ช่วยตอบคำถาม จงตอบคำถามอย่างถูกต้องและมีประโยชน์ที่สุด
<</SYS>>

สวัสดีครับ [/INST]สวัสดีค่ะ มีคำถามอะไร ถามได้เลย</s><s>ขอสูตรทำส้มตำหน่อย [/INST]ได้เลยค่ะ ส้มตำเป็นเมนูที่ทำง่ายและอร่อย มาเริ่มกันเลยนะคะ</s><s>เริ่มได้เลย [/INST]
ตำไทยเป็นเมนูที่ใครๆ ก็คุ้นเคย ด้วยรสชาติที่กลมกล่อม หวาน เปรี้ยว เค็ม เผ็ด ครบรส วันนี้เราจะมาทำส้มตำด้วยกันค่ะ สิ่งแรกที่ต้องมีคือเครื่องปรุงดังนี้
- มะละกอดิบ 1 ลูก
- กุ้งแห้ง 1/2 ถ้วย
- กระเทียม 3 กลีบ
- พริกขี้หนู 3 เม็ด
- น้ำตาลปี๊บ 1 ช้อนโต๊ะ
- น้ำปลา 2 ช้อนโต๊ะ
- มะนาว 1 ลูก
- งาขาวคั่ว 1/4 ถ้วย

วิธีทำมีดังนี้ค่ะ
1. เริ่มจากล้างมะละกอให้สะอาด แล้วใช้มีดปอกเปลือก เอาไส้ออก หั่นเป็นเส้นบางๆ เตรียมไว้
2. ตำกุ้งแห้งให้ละเอียด แล้วตักขึ้นพักไว้
3. ใช้ครกหินหรือเครื่องปั่น บดพริกขี้หนูกับกระเทียมให้ละเอียด
4. ใส่กุ้งแห้งที่ตำแล้วลงไปผสม ตามด้วยน้ำตาลปี๊บ น้ำปลา มะนาว และเส้นมะละกอ คลุกเคล้าให้เข้ากัน
5. ชิมรสให้ได้รสหวาน เปรี้ยว เค็ม เผ็ด จากนั้นตักขึ้นเสิร์ฟพร้อมผักสด อาทิ กะหล่ำปลี ถั่วงอก แครอท ผักบุ้ง</s><s>ขอบคุณครับ [/INST]

ทีมอาสาสมัคร (Volunteer)

ต้องการสมัครอาสาสมัคร

กรอกแบบฟอร์มเพื่อสมัครอาสาสมัคร ร่วมกับเรา (Join Us) และเข้า Discord
หากต้องการสมัครเป็นลูกทีม ติดต่อกับหัวหน้าทีมผ่านทาง Discord ที่มีอยู่แล้วในหน้านี้
หากต้องการตั้งทีมใหม่ ติดต่อ @kobkrit ผ่านทาง Discord หรือเขียนอีเมล์มาที่ [email protected]

ทีมประสานงานหลัก

AIEAT

AIAT

Advisors

อาทิตย์ สุริยะวงศ์กุล (Thai Netizen)
แคทรียา สรรศรี [Kattareeya Sunsee] (Wisesight)
ดร. วินน์ วรวุฒิคุณชัย [Dr.Winn Worawutkhunchai] (Botnoi)
ดร. อภิวดี ปิยธรรมรงค์ [Apivadee Piyatumrong] (NECTEC) ([email protected])

กลุ่มอาสาสมัครทั้งหมด ( 112 ท่าน )

กลุ่ม Pretraining Language Model (50 ท่าน)

หัวหน้าทีม

Dr. Prachya Bookwan (ดร. ปรัชญา บุญขวัญ)

ประสานงาน

Jillaphat Jaroenkantasima (Aut) /จิฬฬาพัฒน์ เจริญขัณฑสีมา (อัฐ)/ Email: [email protected]/Discord: AutNowhereMan#5211

Meeting time: ทุกวันเสาร์ Team Discord URL:

Name

Discord Name

กลุ่ม Finetuning InstructGPT และ Reinforcement Learning with Human Feedback (27 ท่าน)

หัวหน้าทีม

Dr. Sumeth Yuenyong (ดร. สุเมธ ยืนยง)
Witthawin Sripheanpol (Ro) / วิธวินท์ ศรีเพียรพล (โร่) / [email protected]

Name

Discord Name

กลุ่ม Safety Net Model (19 ท่าน)

หัวหน้าทีม

Thanathas Chawengvorakul / [email protected] / oatty-thas#0151
Thannob Aribarg / [email protected] / Thannob#7820

Name

Discord Name

กลุ่ม Label Tagging Website (10 ท่าน)

หัวหน้าทีม

Pornthep Ukosaramig / [email protected]
อภิเดช เอมเอี่ยม / [email protected] / Got#4452

Name

Discord Name

กลุ่ม Infrastructure (2 ท่าน)

หัวหน้าทีม

Pisarnwate Jitvimol / [email protected] พิศาลเวท จิตรวิมล my_name_42904822
Boonkong / [email protected]

กลุ่ม Quality Assurance ( 1 ท่าน)

หัวหน้าทีม

Kochaporn Ratchatawuttimongkol / [email protected] / kochaporn#6008

กลุ่มเพิ่มความสามารถพิเศษให้ OpenThaiGPT (คำผวน) (3 ท่าน)

หัวหน้าทีม

Sittichai Simapanchaporn, [email protected], jo2021#4881
Keeta kummalai, [email protected], keeta#9984
Teerapat Suwannaroochi, [email protected], T-Rex#6800

อาสาสมัครที่กำลังหาทีม

หากต้องการติดต่ออาสาสมัคร ติดต่อผ่านทาง Discord https://discord.gg/gKCHhGG2Mp ได้เลยครับ

โมเดล LLM ภาษาไทยที่ทันสมัยที่สุด ซึ่งทำคะแนนเฉลี่ยสูงสุดในการทดสอบภาษาไทยหลากหลายประเภทเมื่อเปรียบเทียบกับโมเดล LLM ภาษาไทยแบบโอเพนซอร์ซอื่นๆ
รองรับการสนทนาแบบหลายรอบ สำหรับการสนทนาต่อเนื่อง
รองรับการสร้างการตอบสนองแบบ Retrieval Augmented Generation (RAG) เพื่อเพิ่มประสิทธิภาพในการสร้างคำตอบ
ความสามารถในการจัดการบริบทที่น่าประทับใจ: ประมวลผลข้อความได้สูงสุด 131,072 โทเคน และสร้างข้อความได้สูงสุด 8,192 โทเคน ทำให้สามารถตอบคำถามที่ซับซ้อนได้อย่างละเอียด
รองรับการเรียกใช้เครื่องมือ (Tool Calling): ช่วยให้ผู้ใช้สามารถสั่งให้โมเดลเรียกใช้ฟังก์ชันต่างๆ อาทิเช่นเรียก API จากภายนอก, ดึงข้อมูลจาก Internet, ดึงข้อมูลจากฐานข้อมูลต่างๆ ได้อย่างมีประสิทธิภาพผ่านการตอบสนองอัจฉริยะ

OpenThaiGPT

ยินดีต้อนรับสู่ OpenThaiGPT 1.6 และ OpenThaiGPT R1

ทดลองใช้งาน

Web Demo!

Colab Demo!

OpenThaiGPT version 1.0.0 or later

OpenThaiGPT 13b 1.0.0-beta (with 4 bits)

OpenThaiGPT 7b 1.0.0-beta

Version 1.0.0-alpha

Version 0.1.0-beta

Version 0.1.0-alpha

Version 0.0.4

องค์กรที่ร่วมสนับสนุน (Sponsors)

กลุ่ม OpenThaiGPT

กฎกติกาความร่วมมือ (Rules)

ร่วมกับเรา (Join Us)

เข้าร่วม Discord และลงทะเบียนอาสาสมัครข้างล่าง เพื่อเริ่มช่วยการพัฒนา

เข้าร่วม Discord (Discord Channel)

License

Model: APACHE LICENSE, VERSION 2.0

Dataset: CC BY-SA

Previous Versions and Resources

Released Code / Colabs

Pretraining LLM

InstructGPT Finetuning

Code ที่ใช้ Finetune OpenThaiGPT version 0.1.0-beta

Colabs ที่ใช้ Finetune OpenThaiGPT version 0.0.1

Reinforcement Learning with Human Feedback (RLHF)

TRL

RLHF on GPT-2

การช่วยกันสร้าง Dataset สนทนา Chat ภาษาไทย!

เว็บไซด์ที่ร่วมกันสร้าง Dataset สนทนา Chat ภาษาไทย

Q/A

Released OpenThaiGPT 13b <1.0.0-beta> (20/12/23)

Change Logs

🇹🇭 OpenThaiGPT 13b Version 1.0.0-beta (Llama v2 + 15 billion Thai tokens pretrain + 10,000 Thai word extension)

License

Code and Weight

Authors

แผนการดำเนินงาน Roadmap

Q1 2023

Q2 2023

Open Resources

Free Working Datasets

Pretraining

Finetuning

Related Paper / Knowledge

Computing Resources

Previous Events

OpenThaiGPT Meet Up #2

งานเสวนา ความท้าทาย ความเป็นไปได้ และโอกาสของ ChatGPT สัญชาติไทย

สถานที่/วันเวลา

กำหนดการ <ร่าง>

การเดินทาง

Core-team Volunteer Meeting 19 March 15:30

Finetuning / RLHF Volunteer Event (18 March)

Safety Net Volunteer Event (12 March 19:00-19:45)

Pre-training Volunteer Event (11 March 19:00-20:15)

Volunteer Meetup #1 (Zoom) 5 March 13:00

เว็บลงทะเบียนทีมอาสาสมัครครับ

สไลด์ของ ดร.ซี ครับ

สไลด์ของ ดร.ปรัชญา ครับ

Agenda

First Meet Up (25 Feb 2023)!

Youtube Video

Registration (ลงทะเบียน)

Agenda

Avenue

ChatGPT สร้างขึ้นมาได้อย่างไร (How to build ChatGPT?)

Web Demo!

องค์กรที่ร่วมสนับสนุน (Sponsors)

กลุ่ม OpenThaiGPT

Colab Demo!

OpenThaiGPT version 1.0.0 or later

OpenThaiGPT 13b 1.0.0-beta (with 4 bits)

OpenThaiGPT 7b 1.0.0-beta

Version 1.0.0-alpha

Version 0.1.0-beta

Version 0.1.0-alpha

Version 0.0.4