คุณศุภศรณ์ สุวจนกรณ์ จากห้องวิจัย GRAIL นำเสนองานวิจัยในการสร้างวิดีโอของบารัก โอบามา ตามเสียงที่ใส่เข้าไปได้อย่างสมจริง โดยอาศัยข้อมูลเสียงนำมาสร้างเป็นรูปแบบของปากแล้วจึงใส่รายละเอียดลงไปก่อนจะนำภาพปากเคลื่อนไหวนี้ไปใส่วิดีโอเป้าหมาย
งานวิจัยนี้ทำให้สามารถนำเสียงของโอบามาเองมาสร้างภาพวิดีโอใหม่ โดยไม่ต้องอาศัยวิดีโอของการพูดครั้งนั้นจริงๆ แม้แต่เสียงที่สร้างขึ้นมา เช่น เสียงของคนที่เลียนแบบโอบามา หรือเสียงของโอบามาที่ถูกตัดต่อ
การสร้างรูปแบบปากที่เข้ากับเสียง ใช้ recurrent neural network โดยใช้ข้อมูลวิดีโอ 14 ชั่วโมง จากนั้นจึงสร้างภาพปากอย่างละเอียด (รายงานระบุว่าส่วนที่ยากกลับเป็นฟัน) แล้วทำมาปรับเวลากับวิดีโอเพื่อให้การเคลื่อนไหวของหัวสัมพันธ์กับปาก
ตอนนี้คุณศุภศรณ์ทำงานวิจัยอยู่กับ Google Brain ในงานผสม deep learning, computer vision, และ VR
ที่มา - GRAIL