ผลทดสอบ ChatGPT แก้โจทย์โปรแกรมมิ่ง ทำได้ค่อนข้างดีเฉพาะโจทย์ที่เก่ากว่าปี 2021

by mk
9 July 2024 - 13:53

มีงานวิจัยจากคณะนักวิจัยชาวจีน ทดลองนำ ChatGPT ไปทำโจทย์โปรแกรมมิ่งจำนวน 728 ข้อ ที่เขียนด้วยภาษาโปรแกรมยอดนิยม 5 ภาษา (C, C++, Java, Python, JavaScript) รวมถึงวิเคราะห์ช่องโหว่ CWE จำนวน 18 ช่องโหว่ แล้วมาประเมินว่าได้ผลลัพธ์ดีแค่ไหน

จากการประเมินของทีมวิจัยพบว่า ChatGPT ทำผลลัพธ์ออกมาได้ค่อนข้างดี (fairly good) ทำโจทย์ระดับง่าย กลาง ยาก ได้คะแนนผ่าน 89%, 71%, 40% ตามลำดับ

อย่างไรก็ตาม จุดอ่อนของ ChatGPT คือทำโจทย์ที่เกิดขึ้นหลังปี 2021 ไม่ค่อยได้ โดยหลายครั้งถึงขั้นไม่เข้าใจคำถามเลยด้วยซ้ำ แม้ว่าเป็นคำถามระดับง่ายก็ตาม อัตราทำโจทย์สำเร็จระดับง่ายลดเหลือ 52% และอัตราทำโจทย์ระดับยากเหลือ 0.66%

เหตุผลนั้นตรงไปตรงมาว่า ChatGPT ถูกเทรนด้วยโจทย์ที่สร้างขึ้นก่อนปี 2021 และตัวโมเดลไม่ได้มีความสามารถเชิงคิดวิเคราะห์เหมือนมนุษย์มี ดังนั้นเมื่อเจอโจทย์ที่ไม่เคยเห็นมาก่อน (เกิดขึ้นหลังปี 2021) อัตราการทำโจทย์ได้ถึงลดลงมากนั่นเอง

ที่มา - IEEE, เปเปอร์

ตัวอย่างการใช้ ChatGPT แก้โจทย์จาก Google CodeJam

Blognone Jobs Premium