Alibaba Cloud เปิดโมเดล Qwen2.5 ฝึกด้วยข้อมูลขนาดใหญ่มาก รองรับภาษาไทย

by lew
19 September 2024 - 15:57

Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์ Qwen เวอร์ชั่น 2.5 จุดเด่นของโมเดลเวอร์ชั่นนี้คือฝึกด้วยข้อมูลขนาดถึง 18 ล้านล้านโทเค็น รองรับ 29 ภาษารวมภาษาไทย โดยเปิดให้ใช้งานได้อิสระแทบทุกรุ่น

ตัวโมเดลรองรับอินพุต 128K token และตอบข้อมูลได้ 8K token ยกเว้นรุ่น 3B ลงไปจะรองรับอินพุต 32K token เท่านั้น

รุ่นใหญ่สุด Qwen2.5-72B ได้ผลทดสอบชนะ Llama3.1-70B แทบทุกการทดสอบขึ้นไปใกล้เคียง Llama3.1-405B แต่เวอร์ชั่น 72B แจกแบบ Qwen License ซึ่งจำกัดการใช้งานกับบริการที่ผู้ใช้เกิน 100 ล้านคนต่อเดือน

สำหรับโมเดลขนาดเล็กทีมงาน Qwen ชูจุดตัดว่าโมเดลใดได้คะแนน MMLU มากกว่า 65 คะแนนซึ่งโมเดลขนาดเล็กลงก็เก่งขึ้นเรื่อยๆ ในช่วงหลัง และ Qwen2.5-3B ก็เป็นโมเดลเล็กที่สุดที่ได้คะนนเกิน 65 แต่รุ่น 3B แจกเพื่อการวิจัยเท่านั้น

เวอร์ชั่นเฉพาะทาง Qwen2.5-Coder-7B ทำคะแนนชนะโมเดลขนาดใหญ่กว่าหลายตัวแทบทุกการทดอบ มีเพียงชุดทดสอบ BigCodeBench ที่แพ้ CodeStral-22B ไป

สามารถดาวน์โหลด Qwen2.5 มาใช้งานได้ทั้ง vllm และ ollama และทั้งสองแพลตฟอร์มยังใช้งานฟีเจอร์ tool calling ได้ด้วย

ที่มา - QwenLM

Blognone Jobs Premium