ทีมวิจัยของกูเกิลเปิดตัวโมเดล PaLM-E ปัญญาประดิษฐ์สำหรับควบคุมหุ่นยนต์ โดยเป็นการปรับปรุงจาก PaLM โมเดลปัญญาประดิษฐ์ด้านภาษา (LLM) ขนาดใหญ่ 540,000 ล้านพารามิเตอร์ นำมารวมร่างกับปัญญาประดิษฐ์ด้านภาพ (vison) ชื่อ ViT-22B กลายมาเป็น PaLM-E (E ย่อมาจาก Embodied) ขนาด 562,000 ล้านพารามิเตอร์
การรวมโมเดลภาษา LLM กับโมเดลวิเคราะห์ภาพ Vision เข้าด้วยกัน ทำให้ PaLM-E เป็นโมเดลที่สามารถทำงานได้หลากหลาย (generalist) รองรับการสั่งงานหุ่นยนต์ทั้งสองแบบ ทั้งการแยกแยะวัตถุ แยกแยะฉากทัศน์ รับคำสั่งเป็นเสียงแล้วแปลงเป็นข้อความ หรือใช้ทั้งสองอย่างคือให้ดูภาพแล้วทำตามคำบรรยายบอกก็ได้เช่นกัน
กูเกิลบอกว่า PaLM-E ถือเป็นตัวอย่างของการสร้างโมเดลที่รองรับวิธีการสั่งงานหลายแบบ (multi-modal) โดยใช้โมเดลทั่วๆ ไปแล้วได้ผลออกมาดี ซึ่งจะเป็นก้าวสำคัญสู่การพัฒนาโมเดลแบบ multi-modal อื่นในอนาคต
ที่มา - Google AI Blog