พบกับ Tacotron 2 ระบบสร้างเสียงพูดด้วย AI ที่เหมือนเสียงมนุษย์มากจนแยกแทบไม่ออก

by BlackMiracle
31 December 2017 - 17:33

เรื่องเสียงพูดจากคอมพิวเตอร์ก็เป็นอีกประเด็นที่หลายเจ้าพยายามทำให้เหมือนเสียงมนุษย์มากที่สุด ล่าสุดวิศวกรของกูเกิลทีมหนึ่งได้ตีพิมพ์เอกสารนำเสนอระบบสร้างเสียงพูดตัวใหม่ในชื่อ Tacotron 2 ที่ฟังแล้วแยกแทบไม่ออกว่าเป็นเสียงมนุษย์หรือเสียงจากระบบนี้

Tacotron 2 จะสร้าง spectrogram หรือรูปที่แสดงให้เห็นว่าคำพูดควรจะมีเสียงอย่างไร แล้วเอารูปนี้ไปผ่านอัลกอริทึม WaveNet ของกูเกิลเอง ทำให้ได้เสียงพูดที่เหมือนมนุษย์มาก

นักวิจัยระบุว่าเสียงพูดจาก Tacotron 2 ได้คะแนน Mean Opinion Score (MOS) ที่ 4.53 ในขณะที่เสียงพูดของมนุษย์ที่อัดมาอย่างดีได้คะแนน 4.58 โดย MOS คือคะแนนที่วัดว่าเสียงใดๆ มีความเป็นธรรมชาติแค่ไหน

ตัวอย่างของกูเกิลแสดงให้เห็นว่า Tacotron 2 อ่านข้อความและเข้าใจความแตกต่างระหว่างคำว่า "desert" ที่เป็นคำนาม และ "desert" ที่เป็นคำกริยา หรือคำว่า "present" ที่เป็นคำนาม และ "present" ที่เป็นกริยา ทำให้มันออกเสียงแต่ละคำไม่เหมือนกัน

นักวิจัยได้เปิดหน้าเว็บให้คนมาลองฟังประโยคสั้นๆ เทียบระหว่างเสียงจาก Tacotron 2 กับเสียงมนุษย์ ถ้าสนใจลองกดเข้าไปฟังกันได้ เลื่อนลงมาล่างสุดตรงหัวข้อ Tacotron 2 or Human? และดูเฉลยได้จากที่มา ว่าทายถูกกันบ้างหรือไม่ รวมถึงเข้าไปดูเปเปอร์ฉบับเต็มได้ที่นี่

ที่มา - Inc.

Blognone Jobs Premium