Microsoft เผยแพร่งานวิจัย VASA-1 โมเดล AI สร้างวิดีโอคนพูดแบบเรียลไทม์ ด้วยอินพุท 1 รูปภาพและไฟล์เสียง

by arjin
19 April 2024 - 01:20

Microsoft Research เผยแพร่งานวิจัย VASA-1 โมเดลสำหรับสร้างวิดีโอใบหน้าที่กำลังพูดข้อความที่กำหนด ซึ่งมีการขยับอย่างเป็นธรรมชาติ โดยใช้อินพุทเพียง รูปภาพใบหน้า 1 รูป และไฟล์เสียง เท่านั้น จุดเด่นของโมเดลนี้คือการทำงานได้แบบเรียลไทม์ ใบหน้าสามารถปรับตามได้ด้วยความหน่วง latency ที่ต่ำมาก

โมเดล VASA-1 สามารถสร้างวิดีโอความละเอียด 512x512 45fps ได้หากรันออฟไลน์แบบ batch ส่วนแบบออนไลน์สตรีมมิ่งได้สูงสุดที่ 40fps

VASA-1 ยังรองรับการใส่อินพุทเพิ่มเติมคือสัญญาณลักษณะที่ต้องการ เช่น ตำแหน่งดวงตา, การขยับใบหน้า, การแสดงออกอารมณ์ ในงานวิจัยยังทดสอบยังใช้ VASA กับรูปภาพวาดเช่น Mona Lisa ให้พูดในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ ซึ่งทั้งหมดไม่มีในชุดข้อมูลเทรน ก็ได้ผลลัพธ์ออกมาดีเช่นกัน

อ่านถึงตรงนี้ก็คงเพิ่มความกังวลกันขึ้นไปอีก จากก่อนหน้านี้มี AI สร้างเสียงเลียนแบบจาก OpenAI คราวนี้มาเป็นคลิปใบหน้าแถมทำงานได้เรียลไทม์ ไมโครซอฟท์จึงให้ข้อมูลเพิ่มเติมว่า ปัจจุบันคลิปที่สร้างออกมาด้วย VASA นั้น ยังมีจุดสังเกตได้ว่าเป็นวิดีโอ AI แตกต่างจากวิดีโอของจริง อย่างไรก็ตามเมื่อประเมินจากความเสี่ยงของการนำไปใช้ในทางที่ไม่เหมาะสมแล้ว ไมโครซอฟท์จึงไม่มีแผนในการนำเสนอทั้งเดโม่, เผยแพร่ API หรือข้อมูลอื่นเพิ่มเติมของเทคโนโลยีนี้ จนกว่าจะมีแนวทางควบคุมการใช้งานอย่างเหมาะสม ซึ่งรวมทั้งกฎหมายกำกับดูแลด้วย

ที่มา: Microsoft Research

Blognone Jobs Premium