กูเกิลเพิ่มภาษาให้ระบบอ่านรูปประโยค SyntaxNet อีก 40 ภาษา, มีระบบตัดคำแล้ว

by lew

8 August 2016 - 18:17

เมื่อเดือนพฤษภาคมที่ผ่านมากูเกิลเปิดซอร์สระบบประสาทเทียม SyntaxNet สำหรับการอ่านรูปประโยคของคนทั่วไป สร้างขึ้นบน TensorFlow ตอนนี้กูเกิลก็เปิดซอร์สโมเดลภาษาที่ฝึกไว้พร้อมใช้งานแล้วอีก 40 ภาษาในชื่อโครงการ Parsey’s Cousins

แม้ว่า 40 ภาษาที่เพิ่มเข้ามายังไม่มีภาษาไทย แต่เนื่องจากมีการเพิ่มโมเดลภาษาจีนเข้ามาด้วย ทำให้ตัว SyntaxNet เองต้องอัพเกรดฟีเจอร์ เพิ่มความสามารถในการตัดคำ (text segmentation) เข้ามา เพราะอักษรจีนนั้นไม่ได้แบ่งคำด้วยช่องว่างเหมือนภาษาอังกฤษ ขณะที่อีกฟีเจอร์หนึ่งคือการแปลงคำ (morphology) เช่นการเติม -s ในภาษาอังกฤษในกรณีที่พูดถึงของจำนวนหลายชิ้น หรือภาษารัสเซียที่มีการแปลงคำอยู่หลายรูปแบบ ทั้งการบอกเพศ บอกอารมณ์ และบอกจำนวน

โค้ดทั้งหมดถูกรวมไว้ในโครงการ SyntaxNet แล้ว

ที่มา - Google Research

Read on Full Site

Blognone Jobs Premium