# การช่วยกันสร้าง Dataset สนทนา Chat ภาษาไทย!

## เว็บไซด์ที่ร่วมกันสร้าง Dataset สนทนา Chat ภาษาไทย

<https://tag.openthaigpt.aieat.or.th/>

{% embed url="<https://tag.openthaigpt.aieat.or.th>" %}
<https://tag.openthaigpt.aieat.or.th/>
{% endembed %}

เพื่อให้ทีมงาน OpenThaiGPT ได้รับ Dataset สำหรับในการพัฒนา Thai InstructGPT และ Reward Model (RM) ให้ได้เร็วที่สุด ทางทีมงานเลยพัฒนาเว็บไซด์ที่ใช้ร่วมกันสร้าง Dataset นี้โดยทำการ Fork มาจาก Website <https://github.com/LAION-AI/Open-Assistant> ที่เปิด Opensource ภายใตัอนุสัญญา Apache 2.0

## Q/A

Q: ทำไมถึงเลือก Fork จากเว็บไซด์ของ Open Assistant และทำการ Host เอง ทำไมเราถึงไม่พัฒนาเอง หรือไม่ไปใช้ของ Open Assistant โดยตรงเลย?\
\
A: มีข้อดีหลายอย่างที่เลือกในการ Fork จากเว็บไซด์ Open Assistant&#x20;

&#x20;   (1) ไม่เสียเวลาในการพัฒนาเอง\
&#x20;   (2) ได้รับ Update แก้ไข Bug จากทาง Open Assistant อยู่เสมอ\
&#x20;   (3) ผู้พัฒนา OpenThaiGPT ได้รับ Dataset ดิบทันที เมื่อมีคนมาสร้าง Dataset บนเว็บไซด์ ไม่ต้องรอให้ทาง Open Assistant ปล่อยข้อมูล\
&#x20;   (4) สามารถนำ Dataset จาก OpenThaiGPT ส่งต่อให้ทาง Open Assistant ได้โดยง่าย เนื่องจากสร้างมาจากระบบเดียวกัน\
&#x20;   (5) ได้ Pipeline และ Guideline ในการจัดทำ Dataset ที่เป็นมาตรฐานระดับโลก\
&#x20;   (6) เนื่องจากว่าเรา Focus ภาษาไทยภาษาเดียว ทำให้เราสามารถปล่อย Dataset ได้ถี่ขึ้น (ทุกวันอาทิตย์ของสัปดาห์) \
&#x20;   (7) สามารถขยายต่อยอดในงาน Tag ข้อมูลอื่นๆ ที่ทาง OpenThaiGPT อาจจะต้องใช้ในอนาคต หรือสามารถแก้ไขปรับปรุงระบบให้สนับสนุนภาษาในภูมิภาค South-east Asia อื่นๆ อาทิเช่น CLMV ได้ไวกว่า

\----

Q: เว็บไซด์สร้าง Dataset ของ OpenThaiGPT เปิด Source code หรือไม่\
A: เราเปิด Source code เว็บไซด์สร้าง Dataset ของ OpenThaiGPT ภายใตัอนุสัญญา Apache 2.0 ที่  <https://github.com/OpenThaiGPT/Open-Assistant>
