DeepMind เปิดตัว RT-2 ซึ่งมาจากคำว่า Robotic Transformer 2 โมเดลสำหรับควบคุมหุ่นยนต์แบบ Vision-Language-Action หรือ VLA โดยใช้การเรียนรู้ข้อมูลและภาพต่าง ๆ จากอินเทอร์เน็ต ผสมรวมกับการเรียนรู้จากภาพที่เห็นของหุ่นยนต์ในการปฏิบัติหรือทำงานต่าง ๆ วิธีการเรียนรู้นี้อาจบอกได้ว่าเป็น AI แบบ LLM ที่นำใช้กับหุ่นยนต์
ตัวอย่างเช่น หุ่นยนต์แบบเดิมสามารถเรียนรู้จากการจับวางวัตถุ และทดลองทำซ้ำเรื่อย ๆ จนเข้าใจดี แต่วิธีของ RT-2 จะแตกต่างออกไป หุ่นยนต์สามารถเจอวัตถุที่ไม่คุ้นเคย แต่อาศัยข้อมูลจากอินเทอร์เน็ตมาช่วยทำให้สามารถจับวางวัตถุได้ถูกต้องแม่นยำมากขึ้นแม้เป็นการลองครั้งแรก ช่วยลดเวลาในการเทรนข้อมูลนั่นเอง
โมเดลที่ DeepMind นำมาใช้เทรนข้อมูลให้ RT-2 คือ PaLI-X และ PaLM-E โดย PaLI-X จะช่วยเทรนข้อมูลรูปภาพสื่อผสมผสานต่าง ๆ พร้อมกับป้ายกำกับเพื่อให้ RT-2 รู้จัก ส่วน PaLM-E ช่วยในการแปลงออกมาเป็นภาษา ทำให้เข้าใจขั้นตอนของงานที่กำลังต้องทำอยู่
RT-2 เป็นโครงการที่สาธิตรูปแบบของหุ่นยนต์ ซึ่งสามารถเรียนรู้และทำงานที่หลากหลายกว้างมากขึ้นในโลกความจริง ผ่านการเรียนรู้จากชุดข้อมูลเสริมนั่นเอง
ที่มา: DeepMind
สั่งให้หุ่นยนต์วางขวดซอสมะเขือเทศใกล้วัตถุสีฟ้า โดยหุ่นถูกเทรนให้รู้จักแค่สีฟ้าเท่านั้น
ตัวอย่างโจทย์ ต้องการหยิบของที่ใช้ตอกตะปูได้ หุ่นยนต์ก็เลือกก้อนหินตรงหน้าให้