กูเกิลนำเสนอสถาปัตยกรรมปัญญาประดิษฐ์สำหรับแปลภาษาในชื่อ Translatotron ที่เป็นการแปลภาษาโดยตรงจากเสียงพูดไปยังเสียงพูด (end-to-end) แทนที่จะเป็นการแปลงเสียงเป็นข้อความ แปลข้อความ แล้วจึงนำมาแปลงเป็นเสียง (cascade) เหมือนเช่นทุกวันนี้
Translatotron เป็นปัญญาประดิษฐ์แบบ sequence-to-sequence โดยนำข้อมูล spectrogram ของเสียงพูดภาษาต้นทางและปลายทาง
ตอนนี้ประสิทธิภาพการแปลของ Translatotron ยังต่ำกว่าสถาปัตยกรรมแบบ cascade อยู่ แต่เมื่อพัฒนาให้เสียงที่แปลออกมาเป็นเสียงเดียวกับคนพูดภาษาต้นทาง (original speaker) แทนที่จะเป็นเสียงต้นแบบ (canonical) ตัว Translatotron สามารถรักษาคุณสมบัติของเสียงผู้พูดได้ครบถ้วน ทำให้เหมือนผู้พูดเป็นคนเดียวกันแค่เปลี่ยนภาษา (สามารถฟังเสียงได้จากที่มาข่าว)
งานวิจัยนี้ร่วมกันระหว่าง Google Brain, Google Translate, และ Google Speech โดยเชื่อว่าเป็นงานวิจัยแรกที่เสนอการแปลภาษาจากเสียงโดยตรง
ที่มา - Google AI Blog