สัมภาษณ์ ดร.ชัย วุฒิวิวัฒน์ชัย ผู้อยู่เบื้องหลัง VAJA โปรแกรม Text-to-Speech ภาษาไทย

by littletail
17 June 2014 - 07:06

ที่ผ่านมา หลายบริษัทได้ขยับตัวไปเล่นในตลาดเทคโนโลยีทางด้านเสียงมากขึ้น อย่างการนำไปประยุกต์เป็น voice input/output ในสมาร์ทโฟน หรือการประยุกต์ใช้กับอุปกรณ์ไฟฟ้าภายในบ้าน ด้วยความที่ผมสนใจในเรื่องพวกนี้อยู่พอสมควร แล้วก็มีโอกาสได้เห็นการสาธิตโปรแกรม VAJA ของ สวทช. ในงาน Microsoft Innovation Days จึงได้นัดสัมภาษณ์ ดร. ชัย วุฒิวิวัฒน์ชัย ผู้อำนวยการหน่วยวิจัยวิทยาการสารสนเทศแห่ง NECTEC บุคคลหนึ่งที่เป็นผู้อยู่เบื้องหลังของโปรแกรมนี้เกี่ยวกับแนวคิดและความเป็นมาในการวิจัยและพัฒนาโปรแกรม

เท้าความก่อนว่าโปรแกรม text-to-speech คือโปรแกรมแปลงข้อความให้กลายเป็นเสียง ตัวอย่างเช่น ฟังก์ชันอ่านข้อความของ Google Translate, Vocalizer ของ Nuance, SVOX ของ SVOX Mobile Voices เป็นต้น ส่วนโปรแกรม VAJA คือโปรแกรม text-to-speech ที่พัฒนาโดย NECTEC และมีให้ดาวน์โหลดเอาไปใช้งานใน Google Play ปัจจุบันคือเวอร์ชัน 7

Blognone: รบกวนแนะนำตัวเองหน่อยครับ

สวัสดีครับ ผม ดร.ชัย วุฒิวิวัฒน์ชัย ครับ จบปริญญาโทจากจุฬาฯ ทางด้าน Digital Signal Processing มีความสนใจในเรื่อง speech processing มีอยู่ช่วงนึงผมเรียนวิชา Pattern Recognition ซึ่งเป็นวิชาประมาณว่าจำลายมือ จำหน้าคน จำเสียง ผมรู้สึกตื่นเต้นมากเลยว่า เฮ้ย! คอมพิวเตอร์มันฉลาดได้ขนาดนี้ ก็เลยไปปรึกษาอาจารย์ที่เป็น supervisor อาจารย์ท่านก็แนะนำให้ทำโปรเจคทางด้านการจำเสียง ทำไปทำมาก็รู้สึกชอบ ก็เลยไปต่อเอกที่ Tokyo Institute of Technology กับ Prof.Dr. Sadaoki Furui ซึ่งเค้าทำทางด้านนี้โดยตรง

พอเรียนจบกลับมาก็ยังคงมีความใฝ่ฝันเหมือนเดิม ก็คือว่า speech technology ของไทยมันเพิ่งจะเกิดก็อยากจะมาสร้างสรรค์ต่อ ก็มีแต่ NECTEC แหละครับที่ให้ความสนใจ เลยมาทำงานที่นี่ ตั้งแต่เป็นนักวิจัยทางด้าน speech processing มาเป็นหัวหน้างานทางด้านทีม speech แล้วก็มาเป็นหัวหน้าแล็บทางด้าน language technology และตอนนี้เมื่อประมาณปีที่ผ่านมาผมก็ขึ้นมาดูแลเรื่องของ information technology ใน NECTEC เราเป็นฮาร์ดคอร์ในงานวิจัยทางด้าน information technology มีอยู่ 70 กว่าคน ทำ speech processing, image processing, text processing แล้วก็มาทำพวก digital media

Blognone: อยากให้ ดร. แนะนำโครงการ VAJA หน่อยครับ

โครงการ VAJA เริ่มวิจัยครั้งแรกตอนปี 1997 ออกเวอร์ชัน 1 ตอนปี 1999 ทีมที่ทำ VAJA เริ่มต้นจากนักวิจัยเพียงคนเดียว คือ ดร.ประดิษฐ์ มิตราปิยานุรักษ์ พอเวอร์ชัน 2 มีนักวิจัยเพิ่มขึ้นและก็เป็นเวอร์ชันแรกที่สังคมเริ่มเห็น เพราะว่าเราออกไปทดลองใช้งานกับวิทยาลัยราชสุดาภายใต้คำแนะนำของ ศ.ดร.ไพรัช ธัชยพงษ์ (ผู้ก่อตั้ง NECTEC) ท่านอยากจะให้เริ่มทำโครงการ VAJA ก็เพราะว่าอยากจะให้คนพิการได้มีทางเลือก

ช่วงที่ออกเป็นเวอร์ชัน 3 มีการเปลี่ยนแปลงค่อนข้างเยอะ เสียง smooth ขึ้น แต่ก็ยังเป็นหุ่นยนต์แข็งๆ อยู่ คนพิการรู้สึกดีใจว่าเออได้เริ่มใช้ แต่ว่าเทคโนโลยี portable device สมัยนั้นผมว่ายังไม่สามารถรันโปรแกรมเหล่านี้ได้ เรายังใช้พีซีกันอยู่ โน้ตบุ๊คยังไม่ค่อยมี แต่อาจารย์ไพรัชท่านบอกว่า ต้องทำให้ได้เป็น portable เลยนะ ไม่งั้นคนเค้าจะเอาไปใช้กันยังไง โอ้โห! สมัยนั้นจะเอา portable device ที่่รัน text-to-speech นี่นะ ผมคิดไม่ออกเลยจริงๆ แล้วเราก็ไม่ใช่ประเทศที่เป็น manufacturing เราไม่ได้สร้าง device เองได้ เราก็ต้องมานั่งรอ โซนี่เมื่อไหร่จะออก โตชิบ้าเมื่อไหร่จะมีโมเดลใหม่

พอช่วงหลังๆ ซอฟต์แวร์ก็ค่อยๆ เล็กลง ใช้ทรัพยากรน้อยลง ตัวฮาร์ดแวร์ค่อยๆ ดีขึ้น จนกระทั่งมีสมาร์ทโฟนเข้ามาตีตลาดตอนปี 2010 ผมจำได้ว่าตอนนั้นออกเวอร์ชัน 6 ก็พัฒนาซอฟต์แวร์ให้มีขนาดเล็ก แล้วก็เสียงที่ออกมา smooth ราบเรียบขึ้น ผมเรียกว่าดีมากๆ เลย ตอนนั้นเอาไปออกงานก็ปรากฏว่ามีคนติดต่อนำไปใช้จริงครับ ASTV ใช้ ไทยรัฐใช้ โรงพยาบาลใช้ในการเรียกคิวคนไข้ บริษัทหลายๆ แห่งใช้ใน call center แต่สุดท้ายก็ยังรันบน portable device ไม่ได้นะ เพิ่งจะพัฒนาให้มาลงใน Android ได้ตอนปี 2012 ซึ่งตอนนั้นผมก็ถือว่าบรรลุเป้าหมายในเชิงวิจัยแล้ว

แล้ววิธีขายเป็นยังไง ตอนนี้ก็ขึ้น Google Play มีภาคเอกชนที่มารับ license ไปดูแลในเรื่องของการทำ service ดูแลในเรื่องของการจัดการ payment ราคาก็ไม่แพงมากเมื่อเทียบกับของต่างชาติ สามารถให้มันอ่านข้อความที่มีภาษาไทยและอังกฤษปนกันได้ แล้วเท่าที่ผมรู้ในตอนนี้ก็น่าจะเป็นเจ้าเดียวในไทยที่ยังมีการพัฒนาอย่างต่อเนื่องมาเป็นเวลายาวนาน

Blognone: บทบาทที่สำคัญของทีมวิจัยของ ดร. ที่ผ่านมาคืออะไร

ผมคิดว่าเราเป็นซอฟต์แวร์ทางเลือกให้กับลูกค้า คือผมก็ไม่ได้คิดว่าเราจะเป็นผู้นำในตลาดนะ เป็นผู้นำก็ดี แต่ว่าการเป็นซอฟต์แวร์ทางเลือกก็ไม่ได้หมายความว่าเราไปต่อสู้กับเอกชนนะครับ ถ้าเอกชนไทยทำได้ก็ดีครับเราสนับสนุน แต่ถ้าเค้าไปใช้ของเอกชนต่างชาติแล้วถูกบีบด้วยราคา มันก็ควรจะมีภาครัฐที่เข้ามาช่วยเหลือเรื่องนี้

ตัวอย่างหนึ่งที่ผมเห็นได้ชัดก็คือ ความสำเร็จของ VAJA ผมเชื่อว่าทำให้หลายๆ หน่วยงานที่จะหันไปใช้ text-to-speech เค้ามีทางเลือก ในเมื่อมีทางเลือก มีคู่แข่งในตลาดมากๆ มันสามารถทำให้ราคาลดลงให้เหมาะสมกับประเทศไทยได้ แล้วตลาดใหญ่ๆ เช่น ผู้พิการ มีความจำเป็นมากในการใช้ text-to-speech เพราะไม่กี่ปีที่ผ่านมาเค้าก็ยังใช้ text-to-speech ที่เป็นภาษาอังกฤษล้วนๆ อยู่

ผมพยายามสังเกตนะว่าเทคโนโลยีที่ต่างชาติทำอยู่แล้ว เวลามีหน่วยงานในประเทศไทยต้องการใช้ เค้าเอามาใช้ไม่ค่อยได้เพราะว่ามันจะติดอยู่บนเทคโนโลยีของเค้าเท่านั้น อย่างถ้าเกิดว่าเค้าทำอยู่แล้วบน iOS 8 แล้วเราใช้ iPhone เราก็สามารถใช้มันได้ ผมถามว่าวันใดวันหนึ่ง ผมจะเอามาใช้ในการถอดความในการประชุมรัฐสภา เราต้องทำยังไง เราต้องซื้อ iPhone แจกทุกท่านหรือเปล่า ถ้าจะมาปรับใช้กับงานเฉพาะด้าน เค้าจะทำหรือไม่ อันนี้คือสิ่งที่ประเทศไทยเองหรือแม้แต่ประเทศใดๆ ก็แล้วแต่ที่มีภาษาของตัวเองควรจะต้องตระหนักไว้นะ เพราะเราจะรอให้เทคโนโลยีเกิดขึ้นจากคนต่างชาติเป็นคนกำหนดหรือเปล่า ผมก็มีความคิดเรื่องแบบนี้เยอะ

Blognone: ภาษาไทยมีความยากง่ายต่างจากภาษาอังกฤษอย่างไรในแง่ของการพัฒนา

เอาแบบง่ายๆ คืออย่างนี้ text-to-speech จะแบ่งออกเป็น 3 ส่วน คือ

  1. ส่วนวิเคราะห์ข้อความ
  2. ส่วนทำนายอารมณ์ ทำนอง ความดังที่ควรจะเป็น เราเรียกว่า prosody
  3. ส่วนที่ generate เสียง

ส่วนวิเคราะห์ข้อความนั่นก็หมายความว่ามีข้อความเข้ามาก็ต้องตัดคำ ตัดให้ถูกนะ ตากลมต้องตาก-ลมนะ ไม่ใช่ตา-กลมอะไรอย่างนี้ พอตัดคำเสร็จปุ๊บต้องหาหน้าที่ของคำว่าอันนี้เป็นประธาน อันนี้เป็นกริยา อันนี้เป็นอะไร เก็บไว้ก่อน เสร็จแล้วก็เปลี่ยนให้เป็นสัญลักษณ์แทนเสียงเหมือนคาราโอเกะครับ ตรงนี้ก็ต้องอาศัยหน้าที่ของคำในการวิเคราะห์ว่าควรจะอ่านว่าอะไร อย่างสระ (สะ) กับสระ (สะ-หระ) มันก็ขึ้นอยู่กับว่าบริบทข้างๆ เป็นอะไร พอเราวิเคราะห์ตรงนั้นได้แล้ว เอาพวกนี้โยนใส่ส่วนวิเคราะห์ prosody เพื่อที่จะบอกว่า ถ้าอย่างนั้นคุณควรจะให้เสียงดังตรงบริเวณพยางค์นี้นะ เสียงนี้สูงหน่อย ตรงนี้เว้นวรรคด้วย เป็นต้น สุดท้ายเอาตัวทั้งหมดเนี้ยโยนไปให้ตัว generate เสียงให้ทำได้ตามนั้น

เรารู้เลยว่าสองส่วนแรกแตกต่างกันมาก ทุกภาษาจะไม่เหมือนกัน ก็คือว่าถ้าจะวิเคราะห์ข้อความภาษาไทยต้องตัดคำ ภาษาอังกฤษไม่ต้อง ถ้าจะวิเคราะห์ว่าคำนี้อ่านว่าอะไร ภาษาไทยมีความกำกวม ภาษาอังกฤษก็มี แต่ละภาษามีวิธีการแยกแยะความกำกวมที่ต่างกัน ส่วนการตัดประโยค ภาษาไทยก็โหดร้ายมากไม่มีการตัดประโยคอีก คือเราตัดประโยคเพื่อที่จะบอกว่าตรงนี้สามารถหยุดยาวๆ ได้ไม่ต้องมาเกี่ยวกัน เพราะฉะนั้นเวลาเราเลือกช่วงที่หยุดก็ต้องเลือกให้ถูกที่ ถ้าเลือกไม่ถูกที่เวลาพูดก็พูดไม่รู้เรื่อง แต่ส่วนหลังจะเหมือนกันหมดก็คือตัว generate เสียง เพียงแต่บอก parameter ให้ครบมันก็ generate ได้หมด

Blognone: เรื่องที่ยากที่สุดในการพัฒนาแต่ละเวอร์ชันของ VAJA คืออะไร

ผมว่ามุมมองของแต่ละคนต่างกันนะ ถ้ามุมมองของผู้ใช้ผมว่า response time เป็นเรื่องใหญ่มาก text-to-speech กดปุ๊บต้องออก เพราะว่าเค้าใช้บน mobile ไงครับ เค้าไม่รอ เพราะงั้น response time เป็นเรื่องใหญ่ แต่ถ้ามุมมองของนักวิจัย ผมคิดว่าเค้าพยายามที่จะแก้ไขในเรื่องของคุณภาพเสียงที่ยังดูไม่เป็นธรรมชาติ ทุกวันนี้ VAJA ยังมีเพี้ยนอยู่บ้าง โดยเฉพาะโทนเพี้ยน เพราะว่ามันทำนายได้ไม่ดีพอ สาเหตุที่มันทำนายได้ไม่ดีพอก็เพราะว่าตัวอย่างข้อมูลไม่เยอะพอ แล้วตัวอย่างข้อมูลทำไมไม่เยอะ จริงๆ ตัวอย่างเสียงมีให้เห็นอยู่เยอะแยะ แต่ข้อมูลที่จะเอามาใช้ในการสอนให้มันเรียนรู้ต้องผ่าน process เยอะครับ ต้องลงทุนเยอะ แล้วเราก็มีฐานข้อมูลที่ลงทุนพัฒนาไปแล้วก็ใช้อยู่สูงสุดก็ประมาณ 15 ชั่วโมงซึ่งต้องลงทุนเป็นล้าน

Blognone: สมมติว่า VAJA ที่เป็นอุดมคติคือ 100% เทียบกับโปรเจคที่ทำอยู่ ณ ตอนนี้คิดเป็นกี่เปอร์เซ็นต์แล้วครับ

Text-to-speech ที่ดีจะต้องสามารถพูดได้อย่างที่ผมพูด คือดูบริบทว่ากำลังคุยกับใคร อยู่ในเนื้อหาอะไร สภาพแวดล้อมเป็นอะไร ถ้าอยู่ในสถานบันเทิงผมต้องพูดอีกแบบหนึ่ง ถ้าอยู่ในออฟฟิศผมก็พูดอีกแบบนึง ถ้าผมพูดกับน้องผมพูดอีกแบบนึง พูดกับอาจารย์ ผู้บริหาร ผมพูดอีกแบบนึง เนื้อหาที่ผมพูดเป็นเรื่องขำขันหรือเป็นเรื่องซีเรียส ต่างกันหมดเลย VAJA สุดท้ายต้องทำได้อย่างนั้นนะ ถ้าผมถามว่าแล้วถ้าอย่างนั้นตอนนี้มันได้ซักเท่าไหร่ ผมว่ายังไม่ถึง 30% เพราะตอนนี้มันทำได้แต่อ่านข่าวครับ เพราะฉะนั้นยังห่างไกลอีกมาก text-to-speech ของชาวต่างชาติก็ยังห่างไกลเช่นกัน

Blognone: จะมีอะไรใหม่ใน VAJA เวอร์ชัน 8 ครับ

ผมอยากให้ VAJA สามารถสร้างเสียงคนได้ด้วยราคาที่ถูก มีแพลตฟอร์มพร้อมสำหรับการสร้างเสียงใหม่ในเวลาอันสั้น แต่ก็ไม่แน่ใจว่าจะเสร็จเมื่อไหร่นะ เพราะงานวิจัยบางทีต้องลุ้นเหมือนกันว่าจะทำได้สำเร็จหรือไม่ ผมยอมรับว่าผมทำวิจัยเรื่องของการที่จะเพิ่มเสียงมา 2-3 ปีแล้วแต่ไม่สำเร็จ

Blognone: ถ้าเกิดว่าน้องๆ ที่มาอ่านอยากจะเติบโตขึ้นมาเป็นนักวิจัย ดร. จะแนะนำน้องเค้าอย่างไรครับ

คือผมว่าเราต้องมี passion แรงๆ สิ่งเหล่านี้มันเกิดขึ้นได้ด้วยน้ำมือเรา ถ้าเราคิดได้แบบนี้ที่เหลือก็คือเราหาแนวร่วม หางบประมาณ ทำกันเป็นทีมให้มีความเข้มแข็งในเทคโนโลยีเหล่านั้น

ผมบอกนักวิจัยใหม่ๆ ที่อยากจะเติบโตในสายนี้อีกทางหนึ่งก็คือ คุณไปทำงานกับบริษัทเอกชนต่างชาติเลยสิ เพราะถ้าในไทยเองยังไม่มีบริษัทที่ทำวิจัยแบบนี้ คุณก็ไม่มีทางเลือกต้องไปทำกับบริษัทต่างชาติ เปิดกันเยอะแยะเลยนะ เพราะว่าพอกูเกิลทำได้ แอปเปิลก็ต้องทำเค้าก็จ้างคนไทยไป มันมีอีกหลายบริษัทที่เค้ามีความจำเป็นต้องใช้เทคโนโลยีเหล่านี้ และเค้าจำเป็นต้องพัฒนาเอง จะไปคอยซื้อจากบริษัทอื่นไม่ได้ นี่เป็นทางที่ทำให้นักวิจัยหรือนักพัฒนากลุ่มนี้มี career path ในฐานะรัฐบาลหรือของ NECTEC ผมว่าต้องสร้าง infrastructure สร้าง career path ผมมีความหวังนะว่า SME หรือแม้แต่บริษัทยักษ์ใหญ่ในประเทศไทยจะทำวิจัยมากขึ้นเพื่อที่จะเป็น career path ให้กับน้องๆ ซึ่งตอนนี้ผมคิดว่าหลายๆ บริษัทเริ่มตื่นตัวในเรื่องของการสร้าง R&D ของตัวเองบ้างแล้ว

สิ่งที่น้องๆ ควรจะต้องสร้างสมตัวเองไว้ก็คือว่าก็ต้องกล้าทำอะไรที่มันยากๆ อย่าไปทำอะไรที่มันง่ายๆ นะ เช่น ใครๆ ก็เขียนเว็บลิงก์ database ได้ก็อย่าทำเลยครับ อยากเป็นนักวิจัยแบบนี้ต้องมีอาการแบบผมนี่ คือผมทำเพื่อที่วันสุดท้ายจะได้เอ็นโดรฟินหลั่ง คือมันมีความสุขมากเลยเราสามารถทำอันนี้ได้สำเร็จในสิ่งที่ยากๆ เราต้องเรียนรู้ในสิ่งที่ยากๆ เช่น ทุกวันนี้หาคนเขียน C C++ C# ลึกๆ ไม่ได้แล้ว หายากมาก ถ้าเขียน JAVA ก็เอาแบบเบื้องลึกให้สุดโต่ง เขียน Android ก็เอาประเภทที่แบบว่าเครื่องต้องแฮงค์เลย อย่าเขียนแต่แอพง่ายๆ มันไม่พัฒนาตัวเอง ทำแบบนั้นเอาไว้แล้วก็สั่งสมความรู้ตัวเองให้มากๆ รับรองว่ามีทั้งบริษัทข้ามชาติ บริษัทไทยและภาครัฐไทยอยากได้ตัวแน่นอน

ตัวอย่างเปรียบเทียบ voice output ของโปรแกรม VAJA ในแต่ละเวอร์ชันเมื่อให้โปรแกรมอ่านบทความดังต่อไปนี้

ข้อความที่ 1: “จากนี้ บาร์โค้ดหรือแถบรหัสสินค้าที่ติดอยู่บนหีบห่อ กำลังเข้าสู่ยุคแห่งการเปลี่ยนแปลง เพราะเนคเทคอยู่ระหว่างพัฒนาบาร์โค้ดแบบ 2 มิติ รองรับการบันทึกตัวอักษรได้มากกว่าบาร์โค้ดที่ใช้ทั่วไป 200 เท่า”

VAJA เวอร์ชัน 2

VAJA เวอร์ชัน 5

VAJA เวอร์ชัน 6

ข้อความที่ 2: “David Moyes เข้ามารับตำแหน่งกุนซือใหญ่แห่งถิ่น Old Trafford ต่อจาก Sir Alex Ferguson อดีตนายใหญ่โบราณวัตถุเมื่อช่วง summer ที่แล้ว”

VAJA เวอร์ชัน 6

VAJA เวอร์ชัน 7

Blognone Jobs Premium