ทีมวิจัยจาก Purdue University ลองสำรวจการใช้ ChatGPT ตอบคำถามด้านโค้ดดิ้ง โดยเทียบคำถามเดียวกันกับที่ถามบน Stack Overflow จำนวน 517 คำถาม แล้วนำคำตอบมาเปรียบเทียบกับคำตอบของมนุษย์ว่าถูกต้อง แม่นยำ ครบถ้วนแค่ไหน อีกทั้งให้อาสาสมัครจำนวนหนึ่งเลือกว่าชอบคำตอบอันไหนมากกว่า
ผลคือคำตอบ 52% ของ ChatGPT ตอบผิด (incorrect) ส่วนอาสาสมัครเลือกคำตอบจาก ChatGPT จำนวน 39.34% เนื่องจากใช้ภาษาดี แสดงเหตุผลดูน่าเชื่อถือ ซึ่ง 77% ของคำตอบเหล่านี้ผิดซะด้วย
คณะวิจัยบอกว่า ในกรณีที่ ChatGPT ตอบผิดแบบจะแจ้ง ผู้ใช้จะแยกแยะได้ง่าย แต่ถ้าคำตอบไม่สามารถยืนยันได้ง่ายว่าผิดถูกอย่างไร จำเป็นต้องนำโค้ดไปลองรันใน IDE หรือเปิดจากเอกสาร ผู้ใช้มักแยกแยะความถูกต้องของคำตอบไม่ได้เลย อีกทั้งวิธีการใช้ภาษาของ ChatGPT ที่ดูเป็นทางการ เขียนอธิบายแนวคิด ไม่มีอารมณ์เชิงลบ ทำให้ผู้ใช้มีโอกาสโน้มเอียงไปทางคำตอบของ ChatGPT (ที่มีโอกาสผิดสูง) ด้วย
อีกประเด็นที่น่าสนใจคือ ChatGPT มักตอบผิดในเชิงคอนเซปต์ผิด (conceptual) มากกว่าข้อมูลผิด (factual) ซึ่งแสดงให้เห็นว่า ChatGPT ยังไม่เข้าใจบริบทของคำถามดีพอ
ที่มา - The Register