กูเกิลเปิดโครงการ Magika ตรวจสอบชนิดไฟล์แทน libmagic ความแม่นยำสูงเกิน 99%

by lew
16 February 2024 - 06:57

กูเกิลเปิดโครงการ Magika โมเดลปัญญาประดิษฐ์ขนาดเล็กสำหรับการระบุชนิดไฟล์ หรือ mime type เพื่อให้โปรแกรมต่างๆ จัดการไฟล์ได้ถูกต้อง

กระบวนการระบุชนิดไฟล์นั้นไม่มีกฎเกณฑ์ชัดเจน โปรแกรม file สำหรับคาดเดาประเภทไฟล์นั้นเกิดขึ้นครั้งแรกใน Unix เวอร์ชั่น 4 เมื่อปี 1973 หรือ 51 ปีมาแล้ว ทุกวันนี้โค้ดยังคงใช้งานกันต่อมาเรื่อยๆ โครงการ file นั้นใช้ระบบ source control ตัวแรกคือ RCS เมื่อปี 1987 ก่อนหน้า CVS ด้วยซ้ำ

Magika เปลี่ยนแนวทางโดยอาศัยโมเดลปัญญาประดิษฐ์แบบ deep learning พัฒนาด้วย Keras และรันด้วย ONNX ตัวโมเดลที่ได้มีขนาดเพียง 1MB และคาดเดาชนิดไฟล์ได้ภายในไม่กี่มิลลิวินาทีแม้จะรันบนซีพียู ข้อดีสำคัญคือมันแม่นยำอย่างมาก โดยรวม F1-score สูงถึง 99.31% เทียบกับคำสั่ง file ที่ทำได้เพียง 81.30% เท่านั้น

Magika เปิดให้ใช้งานฟรีเป็นไลเซนส์แบบ Apache 2.0 สามารถติดตั้งผ่านคำสั่ง pip install magika ได้ทันที และยังมีเวอร์ชั่น npm แต่ยังอยู่ในขั้นทดลองเท่านั้น

ที่มา - Google Open Source Blog

Blognone Jobs Premium