เมื่อคืนที่ผ่านมา OpenAI เปิดตัว GPT-4o พร้อมกับประกาศเปลี่ยน tokenizer ใหม่โดยอาศัย 20 ภาษาต้นแบบในการบีบอัดข้อมูล ทำให้ภาษาต่างๆ ประหยัดโทเค็นยิ่งขึ้น แม้ภาษาไทยจะไม่อยู่ในรายชื่อ 20 ภาษา แต่ผลการทดลองก็พบว่าภาษาไทยนั้นประหยัดโทเค็นลงเท่าตัว
tokenizer ของ GPT-4o สามารถจับคำหรือส่วนของคำในภาษาไทยได้ชัดเจน คำสามัญเช่น "ของ" หรือ "จำนวน" ก็สามารถมองเป็นโทเค็นเดียวได้ทันที เทียบกับ tokenizer ของ GPT-4 ที่ไม่สามารถรวบตัวอักษรหลายตัวในภาษาไทยเข้าด้วยกันได้เลย ทำให้จำนวนโทเค็นกับจำนวนตัวอักษรใกล้เคียงกัน
ค่า API ของ GPT-4o นั้นประหยัดลงเท่าตัว และเมื่อภาษาไทยได้ประโยชน์จากการประหยัดโทเค็นลงอีกเท่าตัวก็น่าจะทำให้ค่าใช้งานโดยรวมลดลงเหลือเพียง 1 ใน 4 เท่านั้น
ที่มา - HuggingFace: The Tokenizer Playground
การตัดโทเค็นของ GPT-4o
การตัดโทเค็นของ GPT-4/GPT-4 Turbo