เมื่อเดือนพฤษภาคมที่ผ่านมากูเกิลเปิดซอร์สระบบประสาทเทียม SyntaxNet สำหรับการอ่านรูปประโยคของคนทั่วไป สร้างขึ้นบน TensorFlow ตอนนี้กูเกิลก็เปิดซอร์สโมเดลภาษาที่ฝึกไว้พร้อมใช้งานแล้วอีก 40 ภาษาในชื่อโครงการ Parsey’s Cousins
แม้ว่า 40 ภาษาที่เพิ่มเข้ามายังไม่มีภาษาไทย แต่เนื่องจากมีการเพิ่มโมเดลภาษาจีนเข้ามาด้วย ทำให้ตัว SyntaxNet เองต้องอัพเกรดฟีเจอร์ เพิ่มความสามารถในการตัดคำ (text segmentation) เข้ามา เพราะอักษรจีนนั้นไม่ได้แบ่งคำด้วยช่องว่างเหมือนภาษาอังกฤษ ขณะที่อีกฟีเจอร์หนึ่งคือการแปลงคำ (morphology) เช่นการเติม -s ในภาษาอังกฤษในกรณีที่พูดถึงของจำนวนหลายชิ้น หรือภาษารัสเซียที่มีการแปลงคำอยู่หลายรูปแบบ ทั้งการบอกเพศ บอกอารมณ์ และบอกจำนวน
โค้ดทั้งหมดถูกรวมไว้ในโครงการ SyntaxNet แล้ว
ที่มา - Google Research