ทีมวิจัยแอปเปิลชี้ LLM เอาแต่ท่องโจทย์มาตอบ แค่เปลี่ยนเลขก็ทำข้อสอบแย่ลง

by lew
13 October 2024 - 17:19

ทีมวิจัยของแอปเปลรายงานถึงการทดสอบทางคณิตศาสตร์ของ Large Language Model (LLM) ว่าอาจจะยังไม่ดีพอ โดยยกตัวอย่างการทดสอบ GSM8K ที่ทดสอบการให้เหตุผลทางคณิตศาสตร์ที่ LLM รุ่นใหม่ๆ ทำคะแนนได้ดีขึ้นเรื่อยๆ แต่เมื่อทดสอบแก้ไขโจทย์เล็กน้อย หลายโมเดลกลับทำคะแนนได้แย่ลงมาก แสดงให้เห็นว่าโมเดลเหล่านี้ท่องโจทย์มาตอบ ไม่ได้เข้าใจโจทย์จริงๆ

แนวทางของทีมงานคือการสร้างชุดทดสอบ GSM-Symbolic เป็น template ของชุดทดสอบที่สามารถสร้างข้อสอบได้หลากหลาย หลังจากนั้นทดสอบด้วยชุดทดสอบที่เปลี่ยนค่าต่างๆ ไปแล้ว

ผลทดสอบพบว่าโมเดลจำนวนมากคะแนนแย่ลงมากจากการเปลี่ยนตัวเลข ขณะที่การเปลี่ยนค่าอื่นๆ เช่น ชื่อต่าง ยังคงสามารถทำงานได้ถูกต้องอยู่ หรือชุดทดสอบ GSM-NoOps ที่ใส่ข้อความที่ไม่เกี่ยวกับโจทย์เติมลงไปก็ทำให้ผลทดสอบแย่ลงเช่นกัน

ประสิทธิภาพของ LLM ใน GSM-Symbolic นั้นลดลงต่างกันไป โดย GPT-4o ลดลงน้อยที่สุด แต่หากเพิ่มความยากให้โจทย์ด้วยการเพิ่มข้อความในโจทย์เติมลงไปอีกสองชุด คะแนนก็จะลดลงชัดเจนทุกโมเดล รวมถึง GPT-4o

ที่มา - ArXiv

Blognone Jobs Premium