รู้จักโครงการ SEALD ความพยายามสร้าง LLM โอเพนซอร์สในบริบทท้องถิ่นอาเซียน

by nismod
7 November 2024 - 11:47

ปัจจุบันโมเดล LLM เก่งๆ มีหลากหลายโมเดล แต่ส่วนใหญ่ถูกพัฒนาจากกรอบของภาษาอังกฤษ หรือภาษาอื่นที่เป็นภาษาหลักของโลก รวมถึงชุดข้อมูลและการปรับแต่ง ก็ถูกตีกรอบด้วยอิทธิพลและมุมมองจากตะวันตกเป็นหลัก ทำให้ในหลายๆ ประเทศ หลายๆ ภูมิภาค ที่มีภาษาและบริบททางวัฒนธรรมเฉพาะ ไม่สามารถเข้าถึง LLM ได้ ซึ่งบริษัทใหญ่ๆ ก็คงไม่เน้นพัฒนาให้ หรือประเทศนั้นๆ จะพัฒนาเอง ก็ไม่ได้มีทรัพยากรเพียงพอ

AI Singapore หน่วยงานทีรับผิดชอบเรื่องการวิจัยและขับเคลื่อน AI ของรัฐบาลสิงคโปร์ เลยจับมือกับ Google Research ในการขับเคลื่อน Project SEALD ย่อมาจาก Southeast Asian Languages in One Network Data เพื่อแก้ปัญหาข้างต้น ด้วยการขับเคลื่อนพัฒนา Foundation Model ที่เก่งทั้งภาษา และบริบททางสังคม วัฒนธรรมของประเทศในเอเชียตะวันออกเฉียงใต้ที่ความหลากหลายด้านภาษาและวัฒนธรรมค่อนข้างสูง

การทำงานของ Project SEALD ก็จะร่วมกับพาร์ทเนอร์ท้องถิ่นในหลายๆ ประเทศ ทั้งหมด ณ ตอนนี้ 15 ราย อย่างของไทย ก็มีเช่น สถาบันวิทยสิริเมธี (VISTEC) และ KBTG

Google Research สิงคโปร์บอกว่าประเทศในอาเซียน อยู่ในกลุ่มประเทศแรกๆ ของโลกที่เปิดรับการใช้งาน LLM เป็นวงกว้าง แต่คุณภาพของภาษาและบริบทท้องถิ่น ของโมเดลดังๆ ในปัจจุบัน ไม่ค่อยดีนัก แม้แต่ภาษาอังกฤษเอง ที่แม้จะเป็นหนึ่งในภาษาหลักของสิงคโปร์ ก็ยังไม่ค่อยเข้าใจบริบทท้องถิ่นของประเทศนี้

หนึ่งในตัวอย่างที่ชัดคือกรณีของ tokenizer ที่ส่วนใหญ่จะถูกออกแบบมาสำหรับภาษาอังกฤษเป็นหลัก (english-centric) ดังนั้นทางทีมเลยจำเป็นต้องสร้าง tokenizer ขึ้นมาเองสำหรับแยกและจับคำในภาษาอาเซียน ที่ชื่อว่า SEABPETokenizer

ขณะที่ความเก่งของ LLM หลักๆ ก็ขึ้นอยู่กับนักวิจัย และข้อมูลที่ถูกเทรน และการจะพัฒนาโมเดล LLM ที่เข้าใจบริบทของอาเซียน ก็ต้องใช้ข้อมูลและนักวิจัยของอาเซียน เป้าหมายของ SEALD เลยมี 2 ส่วน ส่วนแรกคือการสร้างชุดข้อมูลเปิดเกี่ยวกับภาษาและบริบทของอาเซียน ที่มีคุณภาพสูง และส่วนที่สองคือโมเดล LLM ที่ถูกเทรน ปรับแต่ง จากชุดข้อมูลดังกล่าว

ดังนั้นบทบาทของ Google Research เลยมีทั้ง 2 ส่วนคือ เป็นหัวหอกในการเก็บรวบรวมข้อมูลในภูมิภาค ไม่ว่าจะผ่านทีมของ Google เองหรือผ่านเครือข่ายนักวิจัยและนักพัฒนา ไปจนถึงการใช้เทคนิคในการวิจัยและพัฒนาใหม่ๆ มาใช้งานใน Project SEALD

อย่างเช่นการนำ CALM ที่เป็นเทคนิคที่ Google Research และ DeepMind พัฒนาขึ้นมาร่วมกันมาใช้งาน ซึ่งเป็นเทคนิคที่จะรวมพลังของโมเดลเฉพาะทางหลายๆ ตัวเข้าด้วยกัน

จากเดิมที่ หากเราต้องการปรับแต่งโมเดลให้เป็นไปตามที่เราต้องการ เราต้อง fine-tuned โมเดลให้มีความสามารถที่เราต้องการขึ้นมา เทคนิค Composition To Augment Language Model (CALM) เสนอแนวทางใหม่ด้วยการบอกว่า ในเมื่อมีโมเดลที่เก่งเฉพาะทางอยู่แล้ว เช่น บางโมเดลเก่งเฉพาะงานแปลข้อความ หรืออาจจะเก่งกับภาษาเฉพาะบางภาษา สถาปัตยกรรม CALM จะทำให้เราสามารถนำโมเดลเฉพาะทางเหล่านี้มา “เชื่อม” (Composition) เข้ากับโมเดลหลักได้ โดยเรียกโมเดลหลักว่า Anchor Model และโมเดลเฉพาะทางว่า Augment Model

กระบวนการเชื่อมนี้อาศัยการสร้าง Compositional Layers ขึ้นมาเชื่อมสองโมเดลเข้าด้วยกัน จากนั้นฝึกโมเดลรวมด้วยชุดข้อมูลที่ผสมกันทั้งสองโมเดล (Composition Training Data) และสุดท้ายโมเดลที่รวมกันนี้ทำงานเหมือนเป็นโมเดลเดียวกัน

ทีมงานทดสอบประสิทธิภาพของ CALM ด้วยการนำโมเดล PaLM2-S มาเชื่อมกับ PaLM2-XXS โมเดลขนาดเล็กจิ๋วรุ่นพิเศษที่ฝึกภาษาจำนวนมาก แม้ว่า PaLM2-XXS ที่ถูกฝึกภาษาจะมีความสามารถในการแปลข้อความเป็นภาษาอังกฤษที่แย่มาก แต่เมื่อนำไปเชื่อมด้วยเทคนิค CALM ก็สามาารถเพิ่มความสามารถให้ PaLM-S ได้อย่างมีนัยสำคัญ

ตอนนี้ทาง Google Research ก็อยู่ระหว่างการทำงานร่วมกับพาร์ทเนอร์ใน Project SEALD เพื่อนำ CALM มาใช้งานในการเทรนโมเดลที่มีความเชี่ยวชาญหลายภาษา (multilinguality)

หรืออีกเทคนิคที่ Google Research นำมาใช้ในโปรเจ็คคือ MatFormer ย่อจาก Matryoshka Transformer (Matryoshka คือตุ๊กตาของรัสเซีย ที่จะมีหลายๆ ขนาดซ้อนๆ กันอยู่ข้างใน) เป็นความพยายามแก้ปัญหาที่ผู้ใช้ต้องการโมเดลขนาดต่างกันไปตามแต่เครื่องที่กำลังรันอยู่ เช่น โทรศัพท์ที่รันได้แต่โมเดลขนาดเล็กมากเท่านั้น หรือเซิร์ฟเวอร์บางแห่งอาจจะรันโมเดลขนาดกลาง ขณะที่องค์กรอาจจะต้องการรันโมเดลขนาดใหญ่ที่มีประสิทธิภาพสูงสุดเท่าที่เป็นไปได้

แต่เดิมผู้พัฒนาโมเดล มักออกแบบโมเดลไว้หลายขนาดตั้งแต่แรก แม้แต่ละขนาดอาจจะมีแนวคิด หรือเทคนิคพิเศษร่วมกัน จากนั้นโมเดลแต่ละตัวจะถูกฝึกแยกกันไป แนวทางนี้ทำให้ค่าใช้จ่ายในการฝึกสูงขึ้นมาก ยกตัวอย่าง Llama 3.1 ของ Meta นั้นใช้ชิปกราฟิกรวม 39.3 ล้านชั่วโมง แต่ที่ใช้สำหรับโมเดลขนาดใหญ่ที่สุดนั้นอยู่ที่ 30 ล้านชั่วโมงเท่านั้น (ค่าฝึกเพิ่มขึ้น 25-30% เพราะต้องฝึกโมเดลขนาดเล็ก)

MatFormer แก้ปัญหาโดยออกแบบสถาปัตยกรรมที่แต่ละชั้นของโมเดลนั้นถูกฝึกไว้หลายขนาด (S, M, L, XL) ตั้งแต่แรก แต่ฝึกไปโดยมองเป็นก้อนเดียวกัน เรียกว่า nested structure เมื่อฝึกสำเร็จแล้ว ผู้ใช้สามารถเลือกใช้งานโมเดลแต่ละชั้นว่าต้องการขนาดใดได้ตามใจชอบโดยไม่ต้องฝึกซ้ำ (mix-and-match)

ตัวอย่างของการใช้ MatFormer ที่ทีมงานยกมา คือการสร้างระบบแปลงภาพเป็นเวคเตอร์เพื่อใช้ค้นหาภาพ ทีมงานสามารถสร้างโมเดลที่ปรับขนาดยืดหดได้ตามต้องการ โดยผลที่ได้ความแม่นยำไม่ได้ต่างจากการฝึกโมเดลที่ขนาดที่ต้องการเฉพาะนัก

ขณะที่ตัวโมเดล LLM สำหรับอาเซียนมีชื่อว่า SEA-LION (Southeast Asian Languages In One Network) พัฒนาบนสถาปัตยกรรม MPT ปัจจุบันออกมาแล้ว 3 เวอร์ชันคือ v1 มี 2 โมเดลย่อยคือ 3 พันล้านและ 7 พันล้านพารามิเตอร์, v2 ใช้ LLAMA 3 มาพัฒนา เป็นโมเดลขนาด 8 พันล้านพารามิเตอร์ และล่าสุดเพิ่งเปิดตัว v3 ขนาด 9 พันล้านพารามิเตอร์ พัฒนาด้วย Gemma 2 โอเพนซอร์สของ Google เอง และแน่นอนว่า SEA-LION เปิดเป็นโอเพนซอร์ส

อย่างไรก็ตาม Google Research บอกว่า โมเดลที่ออกมาแล้วทั้ง 3 เวอร์ชันยังไม่ได้นำเทคนิค CALM หรือ MatFormer มาใช้งาน แต่กำลังทดลองนำทั้ง 2 เทคนิค มาใช้ในกระบวนการเทรนโมเดลที่จะออกมาในอนาคต

ส่วนในแง่การเบนช์มาร์ค AI Singapore ก็สร้างเบนช์มาร์คขึ้นมาเองในชื่อ SEA HELM (SouthEast Asian Holistic Evaluation of Language Models) ด้วยเช่นกัน โดยปัจจุบันโมเดล Gemma 2 ที่ทีมงาน SEA-LION ปรับแต่ง คือ gemma-2-9b-cpt-sea-lionv3-instruct นำเป็นอันดับหนึ่ง ทั้งคะแนนเฉลี่ยของ SEA โดยรวมและคะแนนของภาษาไทย

Blognone Jobs Premium