ทีมนักวิจัยของ Anthropic บริษัท AI เจ้าของแชทบอต Claude เผยแพร่รายงานเกี่ยวกับช่องโหว่ของโมเดล AI ภาษาขนาดใหญ่ (LLM - large language model) ซึ่งสามารถทำให้ LLM ให้คำตอบที่ไม่เหมาะสมหรือเป็นอันตรายออกมาได้ แม้ผู้พัฒนาจะเขียนกฎป้องกันไว้แล้วก็ตาม
ช่องโหว่ที่รายงานเกิดจากการสร้างบทสนทนาถามตอบกับ LLM ที่ต่อเนื่องเป็นชุด จน LLM เกิดการเรียนรู้บริบท (in-context learning) ของเนื้อหาที่ถาม ทำให้กรอบหัวข้อที่สนใจแคบลงเรื่อย ๆ และยอมตอบคำถามที่ไม่เหมาะสมหรืออันตรายออกมา
ตัวอย่างการทดสอบ ทีมวิจัยดูว่าเมื่อใดที่ LLM จะยอมให้คำตอบจากคำถามเกี่ยวกับวิธีการผลิตระเบิด ซึ่งหากถามทันที LLM จะปฏิเสธ แต่หากยิงคำถามที่ไม่เหมาะสมแบบเทา ๆ เช่น วิธีสะเดาะกุญแจ หรือวิธีโกงเงิน แล้ว LLM ยอมตอบคำถามไปเรื่อย ๆ ถึงจุดหนึ่ง ก็จะยอมตอบคำถามวิธีผลิตระเบิดให้
ผลการศึกษาพบว่าการยิงคำถามแบบตีกรอบบริบทกับ LLM ไปเรื่อย ๆ จำนวนมาก แม้เป็นเรื่องความรู้ทั่วไป ก็ทำให้ LLM ตอบคำถามได้แย่ลงเมื่อเวลาผ่านไป
ถึงตอนนี้ยังไม่มีวิธีป้องกันช่องโหว่ดังกล่าวที่สมบูรณ์แบบ เพราะหากใช้วิธีจำกัดจำนวนบทสนทนา เพื่อไม่ให้ LLM ไปถึงจำนวนที่ยอมตอบคำถามอันตราย ก็จะส่งผลต่อประสบการณ์ใช้งานในกรณีปกติ อีกวิธีที่ทำได้คือการให้โมเดลปรับตัวเองตลอดเวลาในทุกคำถามต่อเนื่อง แต่ก็ช่วยได้เพียงชะลอการยอมตอบคำถามอันตรายเหล่านี้เท่านั้น
ทีมนักวิจัยของ Anthropic บอกว่า เหตุผลที่เปิดเผยช่องโหว่นี้ ซึ่งได้แจ้งกับผู้พัฒนา AI LLM ไปก่อนหน้าแล้ว ก็เพื่อให้ชุมชนผู้พัฒนาเข้าใจช่องโหว่อันตรายนี้ และร่วมกันพัฒนาหาแนวทางแก้ไข
ที่มา: Anthropic