ไลบรารีประมวลผลภาษาไทย PyThaiNLP ออกรุ่น 2.1 เพิ่มตัวตัดคำใหม่

by tontan
10 December 2019 - 09:30

วันที่ 10 ธันวาคม พ.ศ.2562 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.1 โดยสรุปความสามารถใหม่ดังนี้

  • เพิ่ม AttaCut ตัวตัดคำที่เร็วและแม่นยำ เรียกใช้ผ่าน engine="attacut" ใน pythainlp.tokenize.word_tokenize สามารถอ่านวิธีการทำงานของ AttaCut ตามที่นำเสนอที่ New in ML Workshop, NeurIPS 2019 ได้ที่ arxiv.org/abs/1911.07056
  • เพิ่ม ssg ตัวตัดพยางค์แบบ CRF
  • เพิ่มตัววัดประสิทธิภาพตัวตัดคำ
  • เพิ่มคลังข้อมูลชื่อผู้หญิงและผู้ชาย
  • เพิ่ม tag ทำนอง HTML สำหรับ NER ครอบข้อความที่มีชื่อ
  • เพิ่ม pythainlp.util.thai_time สำหรับแปลงเวลาเป็นคำอ่านภาษาไทย

สามารถอ่านรายละเอียดได้ที่ github.com/PyThaiNLP/pythainlp/issues/181

ที่มา : PyThaiNLP 2.1 : PyThaiNLP GitHub

Blognone Jobs Premium