กูเกิลปล่อยโมเดล Gemma 2 2B โมเดลขนาดเล็กประสิทธิภาพดีกว่า GPT-3.5 เข้าใจภาษาไทย

by lew
1 August 2024 - 03:33

กูเกิลปล่อยโมเดล LLM Gemma 2 2B โมเดลขนาดเล็กเพื่อการรันบนอุปกรณ์โดยตรง ชูความสามารถที่เหนือกว่า GPT-3.5 นับว่าเป็นโมเดลที่ประสิทธิภาพดีที่สุดในขนาดใกล้เคียงกัน

โมเดลนี้ฝึกด้วยชุดข้อมูลขนาด 2 ล้านล้านโทเค็น ด้วยข้อมูลเว็บ, โค้ด, และข้อมูลคณิตศาสตร์ นับว่าชุดข้อมูลเล็กกว่าโมเดลขนาดใหญ่กว่ามาก ผลที่ได้คือคะแนนทดสอบ เช่น MMLU อยู่ที่ 51.3 ต่ำกว่าโมเดลขนาดใหญ่ค่อนข้างมาก หรือชุดทดสอบเขียนโค้ด HumanEval อยู่ที่ 17.7 เท่านั้น อย่างไรก็ดีผลทดสอบใน Chatbot Arena ที่ทดสอบด้วยผู้ใช้งานจริงนั้นกลับได้คะแนนดีมาก เอาชนะได้ทั้ง GPT-3.5 หรือ ChatGPT ตัวแรก, Mixtral 8x7B ที่มีขนาดใหญ่, หรือ Llama 2 70B

ด้วยโมเดลขนาดเล็กเท่านี้ ทำให้เราสามารถรันโมเดลที่ไหนก็ได้ รวมถึงการใช้งานบนชิป NVIDIA T4 ที่ Google Colab ให้บริการฟรี

นอกจาก Gemma 2 2B ตัวหลักแล้ว กูเกิลยังปล่อยโมเดล ShieldGemma สำหรับคัดกรองเนื้อหาอันตราย พร้อมกับ Gemma Scope เครื่องมือแสดงการทำงานภายในของ Gemma 2 ที่เปิดให้ส่องกระบวนการภายในได้ว่าโมเดลมองคำใดจึงสร้างคำตอบออกมา

ที่มา - Google for Developers

Blognone Jobs Premium