Alibaba เผยแพร่ EMO โมเดล AI สร้างวิดีโอร้องเพลงที่ทำจากรูปภาพบุคคลเพียง 1 รูป

by arjin
1 March 2024 - 01:16

หน่วยงานวิจัย Intelligent Computing ของ Alibaba เผยแพร่เทคโนโลยีโมเดล AI สร้างวิดีโอขึ้นจากรูปภาพและเสียง (image-audio-video) ซึ่งเรียกชื่อโมเดลนี้ว่า EMO

EMO ต้องการอินพุทเพียง รูปภาพพอร์ตเทรตบุคคล กับไฟล์เสียง ก็สามารถสร้างวิดีโอที่เป็นบุคคลนั้นพูดหรือร้องเพลงตามไฟล์เสียงได้ ความยาวสูงสุด 1 นาที 30 วินาที จุดเด่นของ EMO คือการแสดงออกจากสีหน้าของบุคคลก็เป็นไปตามเสียงที่ออกมาด้วย ไม่ใช่แค่การขยับปากเท่านั้น

ตัวอย่างที่นำเสนอ EMO สามารถสร้างวิดีโอให้รูปภาพร้องเพลงได้, ปรับได้ตามภาษาของเพลง, มีการขยับตามจังหวะเพลงที่รวดเร็ว ตัวอย่างหนึ่งที่นำเสนอดูเป็นการข้ามโซนสักหน่อย เพราะใช้ภาพนิ่งจากคลิปผู้หญิงญี่ปุ่นเดินบนถนนที่สร้างจาก Sora โมเดลสร้างวิดีโอของ OpenAI นั่นเอง

รายละเอียดของ EMO สามารถดูเพิ่มเติมได้ที่ GitHub และชมคลิปตัวอย่างได้ท้ายข่าว

ที่มา: Pandaily

Blognone Jobs Premium