DeepMind ระบุ Google Assistant ใช้ WaveNet เป็นตัวสังเคราะห์เสียง

by lew
5 October 2017 - 06:25

งานเปิดตัวสินค้าของกูเกิลเมื่อวานนี้พระเอกของงานนอกจากจะเป็นฮาร์ดแวร์แล้ว ฝั่งซอฟต์แวร์ Google Assistant ก็ถูกหลอมรวมเข้าไว้แทบทุกผลิตภัณฑ์ สิ่งหนึ่งที่เปลี่ยนไปคือเทคโนโลยีการสังเคราะห์เสียง (text to speech - TTS) ที่ทีมงาน DeepMind ออกมารายงานว่าตอนนี้เป็น WaveNet เวอร์ชั่นใหม่

WaveNet เปิดตัวตั้งแต่เดือนกันยายนปีที่แล้ว จุดเด่นของมันคือสร้างเสียงจากโครงสร้างคำพูดก่อนหน้าทำให้เสียงมีความเป็นธรรมชาติมากขึ้น แต่การสร้างเสียงที่มีรายละเอียดสูงเช่นนี้กลับกินพลังประมวลผลอย่างหนักจนไม่สามารถใช้งานจริงได้

ปีที่ผ่านมาทีมงาน DeepMind จึงปรับปรุงประสิทธิภาพของ WaveNet จนทำงานได้เร็วขึ้นพันเท่า จากการปรับปรุงโมเดล และนำไปรันบน TPU Cloud ของกูเกิลเอง ทำให้ตอนนี้ เวลาประมวลผล 1 วินาทีสามารถสร้างเสียงได้ 20 วินาที ขณะที่ความละเอียดของไฟล์เสียงที่ออกมาก็เพิ่มจาก 8 บิตเป็น 16 บิต

ตอนนี้เอนจิน WaveNet ใช้งานกับภาษาอังกฤษและภาษาญี่ปุ่นเท่านั้น

ที่มา - DeepMind

Blognone Jobs Premium