เราเคยเห็นโมเดลการสร้างวิดีโอปลอม หรือคลิปเสียงปลอม ที่พัฒนาจากการเทรนข้อมูลคลิปวิดีโอและคลิปเสียงจำนวนมาก หรือ Deepfake แต่งานวิจัยล่าสุดที่เผยแพร่โดย Samsung AI Center สามารถพัฒนาผลลัพธ์ได้ไกลกว่านั้น โดยอาจใช้ข้อมูลเริ่มต้นด้วยรูปภาพเพียง 1 รูปเท่านั้น
รูปแบบการสร้างคลิปดังกล่าว อาศัยการเทรนข้อมูลคลิปวิดีโออื่นที่เป็นการถ่ายเจาะเฉพาะใบหน้าจำนวนหนึ่งก่อน จากนั้นจับเฉพาะตำแหน่งสำคัญบนใบหน้าเพื่อใช้ในการสร้างคลิปวิดีโอ เช่น คิ้ว ตา จมูก ปาก เมื่อเราให้ข้อมูลภาพถ่ายใบหน้า ก็สามารถสร้างวิดีโอปลอมขึ้นมา โดยอาศัยการจับตำแหน่งสำคัญเหล่านั้น แล้วทำการขยับส่วนต่าง ๆ บนใบหน้าออกมานั่นเอง
ในคลิปวิดีโอตัวอย่าง สาธิตการนำภาพนิ่งที่มีชื่อเสียง มาสร้างเป็นวิดีโอสั้นที่มีขยับใบหน้าได้ อาทิ มาริลิน มอนโร, อัลเบิร์ต ไอน์สไตน์ ไปจนถึงภาพวาดโมนาลิซา
ที่มา: TechCrunch