กูเกิลร่วมมือ AI Singapore สร้างชุดข้อมูลภาษา 10 ชาติอาเซียนรวมไทย สำหรับการพัฒนา LLM

by lew
12 March 2024 - 11:28

กูเกิลร่วมมือกับโครงการ AI Singapore เปิดโครงการ SEALD (Southeast Asian Languages in One Network Data) สร้างชุดข้อมูลภาษาสำหรับใช้งานกับ large language model (LLM) ที่เน้นชาติอาเซียนโดยเฉพาะ โดยภาษาชุดแรกได้แก่ อินโดนีเซีย, ไทย, ทมิฬ, ฟิลิปปินส์, และพม่า

ตัวโครงการไม่ได้จำกัดเฉพาะชุดข้อมูล แต่รวมถึงการพัฒนาโมเดลแปลภาษา, สร้างแนวปฎิบัติในการสร้างชุดข้อมูล, สร้างเครื่องมือแปลงภาษา (translocalization), และเผยแพร่แนวทางการสร้างโมเดลในภาษาในชาติเอเชียตะวันออกเฉียงใต้ โดยขุดข้อมูลที่ได้จากโครงการนี้จะเป็นโอเพนซอร์สให้หน่วยงานอื่นๆ นำไปสร้าง LLM ได้ต่อไป

ตอนนี้ยังอยู่ระหว่างการจัดทำชุดข้อมูล และเมื่อเสร็จสิ้นแล้วจะเปิดให้คนทั่วไปดาวน์โหลดได้

ที่มา - AI Singapore

Blognone Jobs Premium