วันนี้ 10 กุมภาพันธ์ พ.ศ.2567 ทาง PyThaiNLP ชุดคำสั่งเครื่องมือประมวลข้อความภาษาไทยสำหรับงานวิเคราะห์ข้อมูล ภาษาศาสตร์ งานปัญญาประดิษฐ์ แบบโอเพ่นซอร์ส ได้ปล่อย PyThaiNLP รุ่น 5.0 หลังจากที่ปล่อย PyThaiNLP 4.0 ไปเมื่อปีก่อน โดย PyThaiNLP 5.0 มีการเปลี่ยนแปลงสรุปได้ดังนี้
- ปรับปรุงการตัดคำค่าเริ่มต้นให้สามารถตัดคำได้แม่นยำขึ้น
- เพิ่มเครื่องมือสำหรับเชื่อมโยงนิพจน์ภาษาไทย (entity linking) ทำงานโดยอ้างอิง ID จาก Wikidata
- เพิ่มโมเดลแก้คำผิดที่ทำได้แม่นยำกว่าเดิม
- เพิ่มความสามารถสำหรับวิเคราะห์หาความสัมพันธ์จากการอ้างอิงระหว่างนิพจน์หรือ coreference resolution ในข้อความภาษาไทย
- เพิ่มเครื่องมือวิเคราะห์ความกำกวมของคำ (Word-sense disambiguation)
- เพิ่มเครื่องมือสำหรับวิเคราะห์ความใกล้เคียงเสียงระหว่างคำ (word approximation) ตัวอย่างเช่น คำว่า รถ ใกล้เคียงกับ รด, รส มากน้อยแค่ไหน
- เพิ่มเครื่องมือหาคำคล้องจองภาษาไทย เช่น คำว่า จีบ คล้องจองกับคำว่า กลีบ, กีบ, ครีบ เป็นต้น
รองรับ Python 3.8 ขึ้นไปและทุกระบบปฏิบัติการหลัก (Windows, MacOS และ Linux)
ข้อมูลเปิดเผย: ผู้เขียนเป็นหนึ่งในทีมนักพัฒนา PyThaiNLP
ที่มา: PyThaiNLP v5.0.0 Released! - PyThaiNLP