กูเกิลประกาศอัพเกรดระบบตัวกรองอีเมลสแปมใน Gmail ซึ่งระบุว่าเป็นการอัพเกรดครั้งใหญ่ที่สุดในรอบหลายปี โดยใช้ระบบแยกแยะคำตัวใหม่ RETVec (Resilient & Efficient Text Vectorizer) ที่มีความสามารถเข้าใจข้อความโฆษณาที่มีการดัดแปลงคำหลบเลี่ยง เช่น ใส่อักขระพิเศษ อีโมจิ สะกดคำผิด ที่ทำให้คนยังอ่านเข้าใจได้ แต่คอมพิวเตอร์อาจไม่เข้าใจ
ตัวอย่างคำที่อีเมลโฆษณาใช้เพื่อหลบ เช่น C0NGRATULATIONS (แทนที่ด้วยเลขศูนย์), Jᴀ̲ᴄ̲ᴋ̲pot ใส่ขีดเส้นใต้ให้จับคู่ด้วย Unicode ปกติไม่ได้ เป็นต้น
RETVec เป็นโมเดลที่ถูกเทรนด้วยข้อมูลคำ ที่มีการดัดแปลงด้วยวิธี เติม ลบ สะกดผิด ใช้อักขระพิเศษ แทนที่อักษรด้วยตัวเลข และวิธีอื่น ๆ ในอักขระ UTF-8 มากกว่า 100 ภาษา ผลลัพธ์ไม่ได้อยู่ในรูปรายการคีย์เวิร์ดที่ดักกรอง (lookup table) เพราะขนาดจะใหญ่มากกว่าวิธีการเดิมเนื่องจากต้องแปลงตัวอักษร โดยมีพารามิเตอร์ประมาณ 2 แสนรายการเท่านั้น ทำให้มีขนาดเล็กพอจะรันที่ระดับอุปกรณ์ได้ด้วย ซึ่งกูเกิลก็โอเพนซอร์ส RETVec นี้ที่ GitHub
ที่มา: กูเกิล ผ่าน Ars Technica