Gmail อัพเกรดระบบกรองสแปมครั้งใหญ่ ดักอีเมลโฆษณาที่ใช้อีโมจิหรือสะกดผิดเพื่อหลบคีย์เวิร์ด

by arjin
5 December 2023 - 03:40

กูเกิลประกาศอัพเกรดระบบตัวกรองอีเมลสแปมใน Gmail ซึ่งระบุว่าเป็นการอัพเกรดครั้งใหญ่ที่สุดในรอบหลายปี โดยใช้ระบบแยกแยะคำตัวใหม่ RETVec (Resilient & Efficient Text Vectorizer) ที่มีความสามารถเข้าใจข้อความโฆษณาที่มีการดัดแปลงคำหลบเลี่ยง เช่น ใส่อักขระพิเศษ อีโมจิ สะกดคำผิด ที่ทำให้คนยังอ่านเข้าใจได้ แต่คอมพิวเตอร์อาจไม่เข้าใจ

ตัวอย่างคำที่อีเมลโฆษณาใช้เพื่อหลบ เช่น C0NGRATULATIONS (แทนที่ด้วยเลขศูนย์), Jᴀ̲ᴄ̲ᴋ̲pot ใส่ขีดเส้นใต้ให้จับคู่ด้วย Unicode ปกติไม่ได้ เป็นต้น

RETVec เป็นโมเดลที่ถูกเทรนด้วยข้อมูลคำ ที่มีการดัดแปลงด้วยวิธี เติม ลบ สะกดผิด ใช้อักขระพิเศษ แทนที่อักษรด้วยตัวเลข และวิธีอื่น ๆ ในอักขระ UTF-8 มากกว่า 100 ภาษา ผลลัพธ์ไม่ได้อยู่ในรูปรายการคีย์เวิร์ดที่ดักกรอง (lookup table) เพราะขนาดจะใหญ่มากกว่าวิธีการเดิมเนื่องจากต้องแปลงตัวอักษร โดยมีพารามิเตอร์ประมาณ 2 แสนรายการเท่านั้น ทำให้มีขนาดเล็กพอจะรันที่ระดับอุปกรณ์ได้ด้วย ซึ่งกูเกิลก็โอเพนซอร์ส RETVec นี้ที่ GitHub

ที่มา: กูเกิล ผ่าน Ars Technica

Blognone Jobs Premium