ทีมนักวิจัยของ OpenAI เผยแพร่งานล่าสุด เพื่อทดสอบว่า AI จะสามารถเรียนรู้และพัฒนาได้มากแค่ไหนหากอยู่ในสภาพการแข่งขันบนโลกเสมือน โดยอาศัยการเรียนรู้สองส่วน คือ multi-agent learning ซึ่งพัฒนาขึ้นเรื่อย ๆ ผ่านการแข่งขันกับคนอื่น และ reinforcement learning จากการลองผิดลองถูกจนเข้าใจมากขึ้น
วิธีการทดสอบนั้นทีม OpenAI สร้างเกมซ่อนหา (hide and seek) ในโลกเสมือนที่มีกำแพง และอุปกรณ์หลายชนิด สามารถเคลื่อนย้ายได้เพื่อบังพื้นที่ มีตัวทดสอบ (agent) แบ่งออกเป็นสองทีม กำหนดกติกาคือ ฝ่ายซ่อนต้องพยายามหลบให้ได้ ส่วนฝ่ายหาต้องหาอีกฝ่ายให้เจอ จึงจะได้รางวัลหรือถูกลงโทษ และไม่มีการสอนกติกาอื่นเพิ่มเติมเพื่อให้เรียนรู้เองเรื่อย ๆ
ผลทดลองพบว่าตัวทดสอบมีการเรียนรู้และปรับกลยุทธ์ขึ้นเรื่อย ๆ ช่วงแรกทุกคนก็แค่พยายามซ่อนและหาไปตามปกติ จนเมื่อถึงเกมที่ 25 ล้าน ฝ่ายซ่อนเริ่มนำกล่องมาบังไม่ให้ฝ่ายหาหาเจอ รวมทั้งช่วยนำกล่องไปบังให้เพื่อนในทีมด้วย
เมื่อถึงเกมที่ 75 ล้าน ฝ่ายหาเริ่มปรับแผน นำทางลาดมาเสริมเพื่อปีนไปหาฝ่ายซ่อนที่หลบอยู่ พอเข้าสู่เกม 85 ล้าน ฝ่ายซ่อนก็เริ่มเกมด้วยการล็อกทางลาดไม่ให้ฝ่ายหาเคลื่อนย้ายมาใช้งานได้
เกมดำเนินรูปแบบนี้จนดูเหมือนจะสิ้นสุดรูปแบบแล้ว แต่พอเข้าช่วงเกมที่ 380 ล้าน ฝ่ายหาก็พบวิธีการใหม่โดยปีนอยู่บนกล่อง แล้วไถกล่อง จากนั้นกระโดดข้ามสิ่งกีดขวางที่ฝ่ายซ่อนวางไว้ เพื่อเข้าไปจับตัวจนได้ เวลาต่อมาฝ่ายซ่อนจึงเริ่มเกมด้วยการล็อกอุปกรณ์ทุกอย่างไม่ให้ฝ่ายหาใช้งานได้ก่อน
สิ่งที่ได้จากงานวิจัยพบว่า AI ในสภาวะการแข่งขันที่มีตัวทดสอบหลายตัว จะเกิดการสร้างวิธีการใหม่ร่วมกัน ตลอดจนเรียนรู้จากคู่แข่งตลอดเวลาเพื่อมาปรับใช้ โดยสามารถจินตนาการต่อได้ว่าในสภาวะที่มีการแข่งขันแต่ซับซ้อนมากกว่านี้ AI อาจค้นพบวิธีการแก้ปัญหาแบบใหม่ที่คนคิดไม่ถึงมาก่อนเลยก็เป็นได้
ที่มา: MIT Technology Review