OpenAI ประกาศปล่อยโมเดลปัญญาประดิษฐ์ Whisper ที่สามารถแปลงเสียงเป็นข้อความ พร้อมๆ กับแปลข้อความเป็นภาษาอังกฤษ โมเดลที่ปล่อยออกมามี 4 ขนาด ตั้งแต่ 39 ล้านพารามิเตอร์ไปจนถึง 1,550 ล้านพารามิเตอร์
จุดเด่นของ Whisper คือรองรับภาษาจำนวนมาก แม้จะมีความแม่นยำต่างกันไป ภาษาที่มีความผิดพลาดต่ำสุด เช่น สเปน, อิตาลี, อังกฤษ, และโปรตุเกส (อัตราการผิดพลาด WER ต่ำกว่า 5.0) ขณะที่ภาษาไทยมี WER ที่ 13.2 และภาษาเกาหลีมี WER ที่ 15.2 ภาษาในอาเซียนอื่นๆ ยังมีอัตราการผิดพลาดค่อนข้างสูง เช่น ลาวอยู่ที่ 101.6, เมียนมาร์อยู่ที่ 124.5
ตัวโครงการปล่อยออกมาเป็น command line ให้ใช้งานแปลงไฟล์ MP3 เป็นข้อความ หรือจะใช้งานผ่าน Python ก็ได้
ที่มา - OpenAI