Meta เปิดตัว Llama 3.1 พร้อมรุ่นใหญ่สุด 405B ความสามารถใกล้เคียง GPT-4o เข้าใจภาษาไทยแล้ว

by lew
23 July 2024 - 16:03

Meta ปล่อยโมเดล Llama 3.1 โมเดล LLM รุ่นล่าสุดที่รีดความสามารถได้สูงขึ้นมาก พร้อมกับปล่อยโมเดลขนาดใหญ่ที่สุด 405B ความสามารถจากการทดสอบหลายอย่างไปอยู่ระดับเดียวกับ GPT-4o แล้ว แม้ว่ายังไม่มีความสามารถ multimodal ที่รองรับภาพและเสียงได้ก็ตาม

ผลทดสอบหลายด้านของ Llama 3.1 แสดงให้เห็นว่าทาง Meta ยังรีดความสามารถในโมเดลขนาดเล็กได้เพิ่มขึ้นเรื่อยๆ โดยผลทดสอบหลายชุด Llama 3.1 8B สามารถทำคะแนนได้ใกล้ Llama 3.0 70B มากขึ้น ขณะที่ Llama 3.1 70B นั้นทำคะแนนเพิ่มเติมได้แทบทุกชุดยกเว้นบ้างเช่นชุดทดสอบเขียนโปรแกรม HumanEval ที่คะแนนลดลง

รอบนี้ความเปลี่ยนแปลงสำคัญ คือ Meta เริ่มทดสอบความสามารถภาษาอื่นๆ นอกจากภาษาอังกฤษเพิ่มเติม คะแนน MMLU ภาษาไทยของ Llama 3.1 8B นั้นอยู่ที่ 50.32 คะแนน ขณะที่ 70B อยู่ที่ 72.95 คะแนน และ 405B อยู่ที่ 78.21 คะแนน แม้ว่าจะต่ำกว่าภาษาอังกฤษหรือภาษาอื่นๆ ในยุโรปพอสมควรแต่ก็แสดงให้เห็นว่า Meta ให้ความสำคัญกับภาษาไทย หลังจากที่ก่อนหน้านี้มีโมเดลจากนักพัฒนาฝั่งจีนหลายตัวเน้นความสามารถเมื่อใช้กับภาษาในเอเชียมากกว่า

ทาง Meta ฝึก Llama 3.1 ให้ปฎิเสธไม่ตอบพรอมพ์ที่อันตราย แต่ก็แนะนำว่าไม่ควรใช้งานเดี่ยวๆ แต่ควรใช้งานร่วมกับ Prompt Guard ระบบป้องกัน prompt injection และ Llama Guard 3 โมเดลเฉพาะทางสำหรับดูแลความปลอดภัยของข้อความตอบกลับ

Mark Zuckerberg เขียนบทความถึงการเปิดตัวครั้งนี้ ระบุว่าโมเดล LLM แบบโอเพนซอร์สยังมีความจำเป็น เพราะองค์กรต้องการใช้โมเดลกับข้อมูลของตัวเอง, องค์กรจำนวนมากไม่ต้องการพึ่งบริการภายนอก, บางองค์กรไม่ต้องการส่งข้อมูลออกไปยังภายนอก, หรือต้นทุนการใช้งานแบบเรียก API นั้นแพงเกินไปเมื่อต้องใช้งานกับข้อมูลจำนวนมากๆ

ส่วนประเด็นว่า Meta แจก Llama ให้ใช้ฟรีทำไปไม Zuckerberg ให้เหตุผล 4 ข้อ ได้แก่ 1) Meta เชื่อว่าการเปิดเทคโนโลยีจะทำให้มีกรพัฒนาเครื่องมือเป็นวงกว้าง นำโมเดลไปออปติไมซ์บนแพลตฟอร์มต่างๆ, 2) AI พัฒนาไปเร็วมาก การเปิดโมเดลปัจจุบันให้ใช้งานไม่ได้สร้างความเสียเปรียบในอนาคต ขณะที่ Llama มีโอกาสที่จะกลายเป็นมาตรฐานอุตสาหกรรม 3) Meta ไม่ได้ทำธุรกิจขาย API อยู่แล้ว การเปิดโมเดลจึงไม่กระทบรายได้ 4) Meta เชื่อในโอเพนซอร์สอยู่แล้ว ตั้งแต่ Open Compute Project, PyTorch, React, และเครื่องมืออื่นๆ อีกมาก

หลังจากนี้บริการ Meta AI จะให้บริการโมเดล Llama 3.1 405B แต่ในประเทศไทยยังไม่เปิดให้ใช้งาน สำหร้บผู้ใช้งานผ่านคลาวด์ รอบนี้มีผู้ให้บริการประกาศเปิดบริการโมเดล 405B จำนวนมาก เช่น AWS, Databricks, Dell, NVIDIA, Groq, IBM, Google Cloud, Microsoft Azure, Scale, และ Snowflake

ที่มา - Meta, Meta AI

Blognone Jobs Premium