Alibaba ปล่อยโมเดล Marco-o1 โมเดลคิดทบทวนในตัวก่อนตอบ เก่งขึ้นแม้เป็นโมเดลขนาดเล็ก

by lew
28 November 2024 - 13:54

Alibaba International Digital Commerce บริษัทฝั่งเว็บอีคอมเมิร์ชของ Alibaba ปล่อยโมเดลปัญญาประดิษฐ์ LLM ในชื่อ Marco-o1 เป็นโมเดลที่ทำผลทดสอบปัญหาคณิตศาสตร์ MGSM ได้สูงขึ้นถึงระดับ 90% แม้จะเป็นโมเดลขนาดเล็ก โดยอาศัยการคิดแบบค่อยเป็นค่อยไป

Marco-o1 สร้างจาก Qwen2-7B แต่อาศัย 4 เทคนิคทำให้โมเดลเก่งขึ้น ได้แก่

  • ฝึกด้วยชุดข้อมูล chain-of-thought: โดยทีมงานสร้างชุดข้อมูลสังเคราะห์การวิเคราะห์ปัญหาเป็นขั้นก่อนตอบ
  • Monte Carlo Tree Search (MCTS): สร้างคำตอบที่เป็นไปได้หลายทาง แล้วเลือกทางที่ดีที่สุด
  • ให้เหตุผลของกรทำงานแต่ละขั้น

ผลของการปรับปรุงเหล่านี้ทำให้ผลทดสอบ MGSM ดีขึ้นอย่างมีนัยสำคัญ และเมื่อทดสอบให้แปลประโยคจากภาษาจีนเป็นภาษาอังกฤษก็พบว่าผลดีขึ้นมาก

ทีมงานระบุว่า Marco-o1 นั้นพัฒนาตามแนวทางของ OpenAI o1 แต่ก็ยังตามหลังอยู่มาก (ขนาดโมเดลก็เล็กกว่ามาก) ในรายงานครั้งนี้ก็มีเพียงผลทดสอบ MGSM ที่ดีขึ้นชัดเจน โดยไม่มีคะแนนทดสอบอื่น น่าสนใจว่าทีมงานปล่อยโมเดลนี้ใกล้ๆ กับทีมงาน Qwen ปล่อยโมเดล QwQ

ที่มา - HuggingFace: AIDC-AI

Blognone Jobs Premium