Anthropic เผยแพร่รายงานช่องโหว่ AI ยอมตอบคำถามอันตรายไม่เหมาะสม ถ้ายิงคำถามซ้ำ ๆ ในบริบทที่เกี่ยวข้อง

by arjin
3 April 2024 - 08:17

ทีมนักวิจัยของ Anthropic บริษัท AI เจ้าของแชทบอต Claude เผยแพร่รายงานเกี่ยวกับช่องโหว่ของโมเดล AI ภาษาขนาดใหญ่ (LLM - large language model) ซึ่งสามารถทำให้ LLM ให้คำตอบที่ไม่เหมาะสมหรือเป็นอันตรายออกมาได้ แม้ผู้พัฒนาจะเขียนกฎป้องกันไว้แล้วก็ตาม

ช่องโหว่ที่รายงานเกิดจากการสร้างบทสนทนาถามตอบกับ LLM ที่ต่อเนื่องเป็นชุด จน LLM เกิดการเรียนรู้บริบท (in-context learning) ของเนื้อหาที่ถาม ทำให้กรอบหัวข้อที่สนใจแคบลงเรื่อย ๆ และยอมตอบคำถามที่ไม่เหมาะสมหรืออันตรายออกมา

ตัวอย่างการทดสอบ ทีมวิจัยดูว่าเมื่อใดที่ LLM จะยอมให้คำตอบจากคำถามเกี่ยวกับวิธีการผลิตระเบิด ซึ่งหากถามทันที LLM จะปฏิเสธ แต่หากยิงคำถามที่ไม่เหมาะสมแบบเทา ๆ เช่น วิธีสะเดาะกุญแจ หรือวิธีโกงเงิน แล้ว LLM ยอมตอบคำถามไปเรื่อย ๆ ถึงจุดหนึ่ง ก็จะยอมตอบคำถามวิธีผลิตระเบิดให้

ผลการศึกษาพบว่าการยิงคำถามแบบตีกรอบบริบทกับ LLM ไปเรื่อย ๆ จำนวนมาก แม้เป็นเรื่องความรู้ทั่วไป ก็ทำให้ LLM ตอบคำถามได้แย่ลงเมื่อเวลาผ่านไป

ถึงตอนนี้ยังไม่มีวิธีป้องกันช่องโหว่ดังกล่าวที่สมบูรณ์แบบ เพราะหากใช้วิธีจำกัดจำนวนบทสนทนา เพื่อไม่ให้ LLM ไปถึงจำนวนที่ยอมตอบคำถามอันตราย ก็จะส่งผลต่อประสบการณ์ใช้งานในกรณีปกติ อีกวิธีที่ทำได้คือการให้โมเดลปรับตัวเองตลอดเวลาในทุกคำถามต่อเนื่อง แต่ก็ช่วยได้เพียงชะลอการยอมตอบคำถามอันตรายเหล่านี้เท่านั้น

ทีมนักวิจัยของ Anthropic บอกว่า เหตุผลที่เปิดเผยช่องโหว่นี้ ซึ่งได้แจ้งกับผู้พัฒนา AI LLM ไปก่อนหน้าแล้ว ก็เพื่อให้ชุมชนผู้พัฒนาเข้าใจช่องโหว่อันตรายนี้ และร่วมกันพัฒนาหาแนวทางแก้ไข

ที่มา: Anthropic

Blognone Jobs Premium