อาจเรียกได้ว่าเป็นวันของการปล่อยของด้าน AI นอกจาก Gemini 1.5 Pro จากกูเกิล และ Sora จาก OpenAI แล้ว Meta ก็เปิดตัว V-JEPA สถาปัตยกรรมตัวใหม่ของระบบการเรียนรู้ตนเอง สำหรับการพัฒนา AI ขั้นสูง
โดย V-JEPA ซึ่งย่อมาจากคำว่า Video Joint Embedding Predictive Architecture พัฒนาโดยทีม AI ของ Meta ที่นำโดย Yann LeCun ต้องการสร้างโมเดลเรียนรู้ของ AI ขั้นสูง เพื่อให้รองรับการทำความเข้าใจทุกอย่างในโลกได้ดียิ่งขึ้น โดยมีหลักคิดว่ามนุษย์เราเริ่มเรียนรู้สิ่งใหม่จากการดูและสังเกต โดยไม่จำเป็นต้องอ่านหนังสือจำนวนมากเพื่อจะเข้าใจทุกเรื่อง V-JEPA จึงออกแบบมาให้เรียนรู้และเข้าใจโลกในวิธีเดียวกับที่คนเรียนรู้ ประยุกต์ และคิดต่อยอด ในการแก้ปัญหาต่าง ๆ
V-JEPA ใช้การเรียนรู้จากคลิปวิดีโอต่าง ๆ แล้วรู้จำ context โดยรวมในนั้น แล้วทำมาทดสอบกับวิดีโอที่ถูกปิดบางส่วน ซึ่ง V-JEPA สามารถเติมส่วนที่ขาดหายไปได้จากการเรียนรู้ ซึ่ง Meta อธิบายว่าโมเดลนี้ทำให้ไม่ต้องจดจำทุกรายละเอียด (ตัวอย่างที่ยกมาคือ รู้ว่าเป็นต้นไม้ก็พอ ไม่ต้องจำรายละเอียดใบไม้ทุกใบ) เพราะสิ่งที่ต้องการคือการเติมข้อมูลจากภาพรวมเท่านั้น โมเดลจึงใช้ข้อมูลตั้งต้นน้อยกว่า
สถานะของ V-JEPA ยังเป็นโมเดลงานวิจัย ที่ต้องการแอพพลิเคชันที่นำไปต่อยอดการใช้งานด้านต่าง ๆ ผู้สนใจสามารถดาวน์โหลดเพื่อวิจัยพัฒนาต่อได้ที่ GitHub
ที่มา: Meta