อ่านปากของฉันนะ ออกซ์ฟอร์ดร่วมมือ DeepMind พัฒนาปัญญาประดิษฐ์อ่านปากได้แม่นกว่ามนุษย์

by lew
22 November 2016 - 07:21

DeepMind ร่วมมือกับมหาวิทยาลัยออกซ์ฟอร์ดพัฒนาปัญญาประดิษฐ์อ่านปากอัตโนมัติ LipNet สามารถอ่านปากด้วยความแม่นยำถึง 93.4% ขณะที่ผู้เชี่ยวชาญสามารถอ่านปากได้แม่นยำเพียง 52.3% และระบบที่แม่นยำที่สุดก่อนหน้านี้ก็อ่านได้แม่นเพียง 79.6%

LipNet จับภาพปากของผู้พูดแล้วพยายามแยกเสียงเพื่อหาตัวอักษร โดยการทดสอบแรกใช้ชุดข้อมูล GRID ที่มีคำไม่มากนัก (51 คำ)

การทดสอบชุดล่าสุดด้วยข้อมูลวิดีโอจาก BBC ที่มีความยาวกว่า 5,000 ชั่วโมง และวิดีโอมีปัญหาเสียงไม่ตรงกับภาพในบางกรณี ปัญญาประดิษฐ์สามารถเรียนรู้จากวิดีโอเหล่านั้น และปรับแก้เสียงที่ไม่ตรงกับภาพได้เอง

ทีมงานใช้ข้อมูลรายการตั้งแต่ปี 2010 เป็นต้นมา และใช้ข้อมูล 6 เดือนล่าสุดเป็นข้อมูลทดสอบ พบว่าระบบยังคงทำนายคำพูดได้ถูกต้องถึง 46.8% ขณะที่ผู้เชี่ยวชาญการอ่านปากสามารถอ่านได้ถูกต้องเพียง 12.4% เท่านั้น

งานวิจัยเช่นนี้มีแนวทางนำไปใช้งานได้หลากหลายในอนาคต คอมพิวเตอร์จะสามารถสื่อสารกับมนุษย์ได้โดยที่เราไม่ต้องออกเสียงจริงๆ หรือการสื่อสารกับผู้ใช้ในพื้นที่ที่เสียงดัง

ที่มา - New Scientist, Technology Review

Blognone Jobs Premium