สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (VISTEC-depa Thailand Artificial Intelligence Research Institute) ปล่อยโมเดล deep learning แบบ Transformer ที่ฝึกด้วย toolkitfairseq ของเฟซบุ๊ก ที่ฝึกกับชุดข้อมูลแปลภาษาไทย-อังกฤษมาแล้ว 1 ล้านคู่ประโยค พร้อมปล่อยชุดข้อมูล โดยได้คะแนน BLEU เหนือกว่า Google Translate API
ทางสถาบันสร้างชุดข้อมูลโดยอาศัยทั้งการจ้างนักแปลโดยตรง, จ้างจากแพลตฟอร์ม crowdsourcing, ใช้นักแปลตรวจสอบการแปลของ Google Translate API, ไปจนถึงเอกสารที่มีการแปลอยู่แล้ว เช่น เอกสารราชการหรือวิกิพีเดีย
โมเดล Transformer เป็นโมเดลที่กูเกิลเสนอไว้ตั้งแต่ปี 2017 และโมเดลในกลุ่มนี้ยังคงเป็นกลุ่มที่มีความแม่นยำสูงสุด ทางสถาบันวิจัยปัญญาประดิษฐ์ใช้โมเดล Transformer แบบพื้นฐานขนาด 74 ล้านพารามิเตอร์ แล้วทดสอบคะแนนด้วยชุดข้อมูล IWSLT 2015 จำนวน 4,242 ประโยค สร้างโมเดลแปลที่ความแม่นยำตามคะแนน BLEU สูงขึ้นกว่าเดิม โดยก่อนหน้านี้ทางสถาบันเคยใช้ชุดข้อมูล OPUS ขนาด 5.4 ล้านประโยคในการสร้างปัญญาประดิษฐ์แบบเดียวกันมาก่อนแล้ว