มาช่วยกันตรวจสอบกับบริจาคเสียงภาษาไทยใน Common Voice กัน

by tontan
8 April 2022 - 14:05

หลังจากที่ผมเขียนมาร่วมกันบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice ลง Blognone ครบ 1 ปี บทความนี้ผมจะมาเขียนบทความว่าเกิดอะไรขึ้นบ้าง เมื่อได้รับเสียงภาษาไทยบริจาคจำนวนมากถึง 300 กว่าชั่วโมง แต่ก็ยังคงต้องการรับบริจาคเสียงกับตรวจเสียงเพิ่มเติม

หลังจากที่ทาง Mozilla ปล่อยชุดข้อมูล Common Voice รุ่นที่ 7 ออกมา ทางสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย ได้เทรนโมเดล Automatic Speech Recognition ภาษาไทยโดยวัดประสิทธิภาพจาก Common Voice ที่แบ่งใหม่พบว่า มีความแม่นยำทัดเทียมกูเกิลแล้ว ซึ่งถือเป็นโมเดล Automatic Speech Recognition ภาษาไทยที่มีประสิทธิภาพมากตัวหนึ่ง

นอกจากนั้น เสียงภาษาไทยที่เพิ่มเข้ายังช่วยให้เกิดโมเดล Automatic Speech Recognition ภาษาไทยบน Hugging Face ให้เลือกใช้งานมากขึ้น (ตอนนี้มีถึง 3 โมเดล) รวมถึงมี open source ของต่างประเทศอย่าง Coqui เอาไปเทรนโมเดลภาษาไทยอีกด้วย https://coqui.ai/thai/itml/v0.1.0

กลับมาที่จำนวนชั่วโมงเสียงภาษาไทยใน Common Voice ปัจจุบันเสียง Mozilla Common Voice รุ่นที่ 8 มีจำนวนชั่วโมงเสียงภาษาไทยทั้งหมด 340 ชั่วโมง แต่ยังมีจำนวนชั่วโมงตรวจสอบเสียงเพียง 142 ชั่วโมง ยังห่างไกลจากเป้าหมายที่จะได้ชุดข้อมูลที่นำไปเทรนโมเดล Automatic Speech Recognition ภาษาไทยให้ได้เข้าใจทุกคนได้ในระดับผลิตภัณฑ์

เป้าหมายของ Common Voice คือต้องมีจำนวนชั่วโมงตรวจสอบ 10,000 ชั่วโมงขึ้นไปต่อภาษา ซึ่งทาง Common Voice ให้เหตุผลว่า “เป็นจำนวนชั่วโมงสำหรับทำโมเดลถอดเสียงเป็นข้อความได้ในระดับผลิตภัณฑ์” ด้วยเหตุนี้ทำให้แม้แต่ ภาษาอังกฤษใน Common Voice ยังไม่ถึงเป้าหมายดังกล่าว (ภาษาอังกฤษใน Common Voice ตอนนี้มีจำนวนชั่วโมงที่ตรวจสอบแล้วกว่า 2,185 ชั่วโมง)

จากจำนวนชั่วโมงการตรวจสอบเสียงที่น้อยกว่าจำนวนชั่วโมงเสียงทั้งหมดของภาษาไทย ทำให้ตอนนี้ Common Voice ภาษาไทยต้องการคนตรวจสอบเสียงภาษาไทยจำนวนมากกว่าการบริจาคเสียง การตรวจสอบเสียงแต่ละเสียงต้องมีผู้ตรวจสอบอย่างน้อย 2 คน ดังนั้นผมจึงขอเชิญชวนทุก ๆ ท่านมาร่วมกันตรวจสอบเสียงภาษาไทยกันครับ

สามารถเข้าไปร่วมตรวจเสียงภาษาไทยใน Common Voice ได้ที่ https://commonvoice.mozilla.org/th/listen

ดูวิธีตรวจสอบเสียงภาษาไทยใน Common Voice ได้ตามวิดีโอข้างล่างนี้ ของคุณ Vee Satayamas

สามารถเข้าไปบริจาคเสียงได้ที่ https://commonvoice.mozilla.org/th/speak

ดาวน์โหลดชุดข้อมูลเสียงภาษาไทย Common Voice รุ่นที่ 8 ได้ที่ https://commonvoice.mozilla.org/th/datasets

กำหนดการปล่อยชุดข้อมูล Common Voice รุ่นถัดไป ทาง Mozilla จะปล่อยทุก 3 เดือน แทน 6 เดือนจากเดิม ซึ่งจะตรงกับวันที่ 24 เมษายนนี้ !!!

อ้างอิง

Blognone Jobs Premium