Meta ปล่อยโมเดลปัญญาประดิษฐ์ Llama 3 สองรุ่น คือ 8B และ 70B แยกรุ่นย่อยสำหรับการทำตามคำสั่ง โดยยังมีรุ่น 400B อยู่ระหว่างการพัฒนา
รุ่น 8B นั้น Meta เทียบกับ Gemma 7B และ Mistral 7B Instruct เอาชนะได้ทุกชุดการทดสอบ บางหมวดเช่น HumanEval สำหรับการเขียนโปรแกรม และ GSM-8K สำหรับการคำนวณนั้นนำห่าง
รุ่น 70B ทาง Meta นำไปเทียบกับ Gemini Pro 1.5 ทำคะแนนนำได้บางชุดทดสอบ และเมื่อเทียบกับ Claude 3 Sonnet ก็ชนะทุกชุดทดสอบเช่นกัน
การทดสอบสุดท้ายของ Llama 3 อาศัยชุดทดสอบเฉพาะกิจที่เป็นคำถาม 1,800 รายการที่ทีมพัฒนาไม่ได้เห็นคำถามมาก่อน และนำไปให้คะแนนคำตอบเทียบกันโดยให้คนเป็นคนตัดสินว่า LLM ตัวใดตอบได้ดีกว่ากัน ผลพบว่า Llama 3 70B สามารถชนะ Cluade Sonnet, Mistral Medium, GPT-3.5, และ Llama 2 ได้ชัดเจน
สถาปัตยกรรมภายในรอบนี้มีการเปลี่ยนตัว tokenizer ใหม่ขนาดคำศัพท์ 128K และฝึกด้วย sequence ขนาด 8,192 tokens ชุดข้อมูลขนาดใหญ่ขึ้น 7 เท่าตัวจาก Llama 2 เป็น 15T มีข้อมูลภาษาอื่น 5% รวม 30 ภาษา โดยทั่วไปประสิทธิภาพในภาษาอื่นน่าจะลดลง สองโมเดลรวมใช้เวลาฝึก 7.7 ล้านชั่วโมงจีพียู ปล่อยคาร์บอน 2,290 ตัน
ทีมงานพัฒนา Llama 3 โดยเตรียมให้ทำ fine-tune ได้แต่แรก โปรแกรม torchtune รองรับ Llama 3 มาแต่แรก พร้อมกับโมเดลป้องกันพรอมพ์อันตราย Llama Guard 2 ที่สามารถปรับแต่งโมเดลได้เช่นกัน
ทาง Meta กำลังนำ Llama 3 มาเปิดเป็นบริการผ่านเว็บ แต่ตอนนี้ยังไม่เปิดให้บริการในไทย
ที่มา - Meta