งานวิจัย Deep Speech ของ Baidu ทำงานได้ดีกว่าบริการที่มีอยู่ในตลาดทุกตัว

by lew
18 December 2014 - 17:33

Baidu ประกาศความสำเร็จในการพัฒนา Deep Speech ระบบจดจำเสียงที่ใช้โครงสร้าง deep learning เข้ามาเรียนรู้เสียงจากโลกความเป็นจริงทำได้สามารถจดจำเสียงได้อย่างแม่นยำ

Andrew Ng ระบุว่างานวิจัย Deep Speech นี้สามารถฟังข้อความได้ถูกต้องแม้จะอยู่ในพื้นที่ที่มีเสียงรบกวนสูง รวมถึงพื้นที่ที่ระบบจดจำเสียงทุกวันนี้ไม่สามารถฟังข้อความเข้าใจได้ โดยเขาทดสอบกับระบบที่มีอยู่ในตลาด รวมถึง Google API, Apple Dictation, และ Baidu Speech เอง ระบบ Deep Speech นี้สามารถทำงานได้ดีว่าทุกระบบ

ทีมงานใช้เสียงที่บันทึกจากคน 9,600 คน รวมทั้งหมด 7,000 ชั่วโมง จากนั้นจึงใส่เสียงรบกวนเข้าไปในเสียงด้วยรูปแบบต่างๆ ทำให้ได้ข้อมูลถึง 100,000 ชั่วโมง จากนั้นให้ซอฟต์แวร์เรียนรู้จากข้อมูลที่ใส่เข้าไป โดยซอฟต์แวร์ deep learning ทำงานบนชิปกราฟิก มีความสามารถในการกระจายโหลดออกไปให้ประมวลผลขนานกันได้ (scalable)

Andrew ระบุว่ายังบอกไม่ได้แน่ชัดว่าระบบ Deep Speech นี้จะให้บริการจริงได้เมื่อไหร่ แต่เมื่อนักข่าวถามว่าต้องรอเป็นปีเลยไหม เขาตอบว่า "ไม่หรอก" ("Jesus Christ no!")

ที่มา - Forbes, Facebook: Andrew Ng

Blognone Jobs Premium