Meta เปิดตัว Llama 2 ตัวต่อจาก Llama ที่เปิดตัวไปเมื่อเดือนกุมภาพันธ์ที่ผ่านมา ตัวโมเดลมี 3 ขนาดเช่นเดิม คือ 7B, 13B, และ 70B แต่เปลี่ยนแนวทางเพิ่มการฝึกกับชุดคำถามตอบมากขึ้น โดยมีการจูนกับชุดคำถามตอบกว่าแสนรายการ และฝึกเพิ่มด้วยการให้คนมาเลือกคำตอบที่ดีที่สุดอีกกว่าล้านครั้ง
แนวทางการฝึกเพิ่มเติมเช่นนี้ทำให้ Llama 2 เอาชนะโมเดลโอเพนซอร์สในขนาดเดียวกันได้ชัดเจน โดยเฉพาะในกลุ่มโมเดลขนาดเล็ก 7B แต่ในโมเดลขนาดใหญ่กลับทำคะแนนเพิ่มจาก Llama 1 ได้ชัดเพียงแค่บางหมวด เมื่อใช้โมเดล Llama-2-70B-Chat ทดสอบตอบคำถามแข่งกับ ChatGPT-0301 และให้มนุษย์เป็นคนพิจารณาว่าคำตอบใครดีกว่ากันก็พบว่า Llama-2-70B-Chat ทำคะแนนได้สูสี กรรมการที่เป็นมนุษย์ให้คะแนน Llama-2 ชนะ 35.9% เท่ากัน 31.5% และให้ ChatGPT ชนะ 32.5%
Llama 2 ฝึกด้วยข้อมูลชุดใหม่ มีขนาดใหญ่ขึ้น 40% เป็น 2 ล้านล้านโทเค็น กระบวนการฝึกใช้ context ยาวขึ้นเป็น 4K ทำให้รองรับคำถามตอบขนาดยาวได้ ตัวโมเดลขนาดใหญ่ใช้ชิปกราฟิกไปทั้งหมด 1,720,320 ชั่วโมง ปล่อยคาร์บอนรวม 291 ตันระหว่างการฝึก
ก่อนหน้านี้ Meta เปิดให้คนภายนอกใช้งาน Llama เพื่องานวิจัยเท่านั้น ใน Llama 2 รอบนี้ทาง Meta อนุญาตให้ใช้งานเพื่อการค้าได้ หากบริการมีผู้ใช้ไม่เกิน 700 ล้านคนต่อเดือน และผู้ใช้ยอมรับเงื่อนไขการใช้งานว่าจะไม่นำ Llama 2 ไปใช้งานอันตรายต่างๆ
ที่มา - Meta AI