OpenAI เผยแพร่งานวิจัยในการพัฒนาอัลกอริทึม เพื่อทำให้โมเดล AI ภาษาขนาดใหญ่หรือ LLM พัฒนาความสามารถในการอธิบายสิ่งต่าง ๆ ให้คนอื่นเข้าใจได้ดีขึ้น เรียกวิธีการนี้ว่า Prover-Verifier Games
การทำงานนั้นผู้วิจัยใช้โมเดล AI สองโมเดล โมเดลหนึ่งมีประสิทธิภาพสูงกว่าเป็น Prover หรือคนอธิบายคำตอบ และโมเดลที่ประสิทธิภาพน้อยกว่าเป็น Verifier ทำหน้าตรวจสอบความถูกต้องของคำตอบที่ได้รับ หน้าที่ของ Prover คือให้คำตอบที่ทำให้อีกฝ่ายเชื่อว่าถูกต้องที่สุด ส่วน Verifier ต้องตอบว่าคำตอบที่ได้นั้นถูกต้องหรือไม่ ซึ่งหลายกรณีเป็นคำตอบที่มั่ว แต่ Prover ใช้คำอธิบายทำให้ไขว้เขว
ในงานวิจัยทดสอบโดยใช้ GPT-4 ปรับแต่งความสามารถเป็นสองโมเดล เพื่อตอบคำถามคณิตศาสตร์ระดับโรงเรียน ที่มีคำตอบชัดเจนอยู่แล้ว ซึ่งปรับค่าให้ Prover ตอบถูกต้องอธิบายดี และตอบมั่วโดยให้เหตุผลประกอบหลอก ๆ สำหรับทดสอบ Verifier จากนั้นใช้คนให้คะแนน
ผลลัพธ์ที่ได้หลังจากเทรนไปอย่างน้อย 4 รอบ พบว่า Verifier ทำงานได้ดีขึ้นเมื่อเจอคำตอบหลอก ส่วน Prover มีความสามารถในการอธิบายด้วยภาษาที่เข้าใจง่ายมากขึ้นเรื่อย ๆ
OpenAI บอกว่าการทดสอบดังกล่าว เพื่อช่วยแก้ปัญหา LLM ที่ปัจจุบันสามารถตอบคำถามให้ข้อมูลในหัวเรื่องที่ซับซ้อนมากได้ แต่สิ่งสำคัญกว่าคือคนก็ต้องตรวจสอบกลับได้ด้วยว่าคำตอบนี้น่าเชื่อถือหรือไม่ เมื่อใช้ระบบสองโมเดลมาตรวจสอบกัน ก็จะลดขั้นตอนและความเสี่ยงที่มีคนมาเกี่ยวข้องได้
ที่มา: OpenAI