วันนี้ 30 มกราคม พ.ศ.2565 ทางทีมพัฒนา PyThaiNLP ได้ปล่อยแพ็กเกจประมวลผลภาษาธรรมชาติ PyThaiNLP รุ่น 3.0 หลังจากที่ปล่อย PyThaiNLP 2.3 ไปเมื่อปีก่อน
PyThaiNLP 3.0 มีความเปลี่ยนแปลงสรุปได้ดังนี้
- เพิ่มโมเดลแปลภาษาจีนกลาง - ภาษาไทย
- ปรับปรุงพจนานุกรมตัดคำหลักและตัวตัดคำ newmm
- ปรับปรุงคลาสสำหรับเรียกเครื่องมือแปลภาษา
- เพิ่มตัวแก้คำผิด
- เพิ่มเครื่องมือสำหรับสร้างข้อความและ Text Augmentation ภาษาไทย
- ปรับปรุง API จาก syllable_tokenize ให้เปลี่ยนไปใช้งาน subword_tokenize
- ปรับปรุง API สำหรับ Word Vector
- เพิ่ม TLTK เข้ามาเป็นตัวเลือก engine ในทั้งตัดคำ, วิเคราะห์ไวยากรณ์, แก้คำผิด และอื่น ๆ
ข้อมูลเปิดเผย: ผู้เขียนเป็นหนึ่งในทีมนักพัฒนา PyThaiNLP
ที่มา: PyThaiNLP v3.0.0 Released! - GitHub