กูเกิลนำเสนอปัญญาประดิษฐ์ Translatotron แปลภาษาโดยตรงจากเสียงพูดไปเสียงพูด แปลออกมาเหมือนคนเดิมพูดได้ด้วย

by lew
16 May 2019 - 03:22

กูเกิลนำเสนอสถาปัตยกรรมปัญญาประดิษฐ์สำหรับแปลภาษาในชื่อ Translatotron ที่เป็นการแปลภาษาโดยตรงจากเสียงพูดไปยังเสียงพูด (end-to-end) แทนที่จะเป็นการแปลงเสียงเป็นข้อความ แปลข้อความ แล้วจึงนำมาแปลงเป็นเสียง (cascade) เหมือนเช่นทุกวันนี้

Translatotron เป็นปัญญาประดิษฐ์แบบ sequence-to-sequence โดยนำข้อมูล spectrogram ของเสียงพูดภาษาต้นทางและปลายทาง

ตอนนี้ประสิทธิภาพการแปลของ Translatotron ยังต่ำกว่าสถาปัตยกรรมแบบ cascade อยู่ แต่เมื่อพัฒนาให้เสียงที่แปลออกมาเป็นเสียงเดียวกับคนพูดภาษาต้นทาง (original speaker) แทนที่จะเป็นเสียงต้นแบบ (canonical) ตัว Translatotron สามารถรักษาคุณสมบัติของเสียงผู้พูดได้ครบถ้วน ทำให้เหมือนผู้พูดเป็นคนเดียวกันแค่เปลี่ยนภาษา (สามารถฟังเสียงได้จากที่มาข่าว)

งานวิจัยนี้ร่วมกันระหว่าง Google Brain, Google Translate, และ Google Speech โดยเชื่อว่าเป็นงานวิจัยแรกที่เสนอการแปลภาษาจากเสียงโดยตรง

ที่มา - Google AI Blog

Blognone Jobs Premium