Deepmind โชว์ความสามารถของปัญญาประดิษฐ์ video-to-audio (V2A) ที่สามารถเติมเสียงเข้าไปยังวิดีโอได้ตามคำสั่ง เปิดแนวทางการใช้งานที่หลากหลาย ทั้งการเติมเสียงใส่วิดีโอที่สร้างจากปัญญาประดิษฐ์ หรือจะเป็นการเติมเสียงใส่วิดีโอเก่าที่ไม่มีเสียงแล้ว
เนื่องจาก V2A รองรับพรอมพ์จากผู้ใช้ด้วย ทำให้สามารถปรับแต่งโทนของเสียงได้หลากหลายแม้จะเป็นวิดีโอเดียวกัน เช่น ต้องการใส่เพลงประกับซีนนั้นๆ หรือต้องการเพียงเสียงประกอบเฉยๆ
ปัญญาประดิษฐ์สร้างเสียงจากข้อความหรือภาพนั้นมีการนำเสนอมาก่อนหน้านี้แล้ว แต่ความได้เปรียบของ V2A คือมันเข้าใจวิดีโอมากพอที่จะสร้างเสียงที่ลงจังหวะกับวิดีโอพอดีได้ในตัว ฟีเจอร์สำคัญ เช่น การสร้างเสียงจากบทพูดแล้วซิงก์กับใบหน้าของตัวละครในวิดีโอ
Deepmind ยังคงแนวทางจำกัดการใช้งานปัญญาประดิษฐ์เหล่านี้ไว้กับชุมชนครีเอเตอร์ในช่วงแรก เช่นเดียวกับโมเดลอื่นๆ ที่เปิดตัวไปตั้งแต่งาน Google I/O โดยระบุว่าหากแน่ใจว่าปลอดภัยจึงเปิดออกสู่วงกว้าง
ที่มา - Deepmind