Meta ปล่อยโมเดล SAM 2 จับวัตถุอะไรก็ได้ในวิดีโอ

by lew
30 July 2024 - 06:12

Meta ปล่อยโมเดล Segment Anything Model (SAM) เวอร์ชั่นที่สองที่สามารถแยกส่วนวัตถุใดๆ ก็ได้ในภาพ โดยมีความสามารถเพิ่มขึ้นระดับที่สามารถจับวัตถุที่ไม่มีในชุดข้อมูลฝึกมาก่อน

แนวทางการใช้งานโมเดล SAM เช่น การจับการเคลื่อนไหววัตถุ, การสร้างเอฟเฟควิดีโอ, ตลอดจนการลบฉากหลังเมื่อประชุม โดยโมเดลต้องการอินพุตเป็น จุด, กล่อง, หรือพื้นที่ ของเฟรมเริ่มต้น ทั้งแบบ positive พื้นที่แสดงวัตถุกที่ต้องการ, และ negative พื้นที่แสดงว่าไม่ใช่วัตถุที่ต้องการ จากนั้นโมเดลสามารถวาดหาพื้นที่ของวัตถุทั้งหมดได้อัตโนมัติ และสามารถจดจำได้ว่ากำลังจับวัตถุอะไรอยู่

นอกจากตัวโมเดลแล้ว ทาง Meta ยังปล่อยชุดข้อมูล SA-V ที่ใช้ฝึก SAM 2 ออกมาด้วย โดยรวมเป็นการแยกวัตถุกว่า 600,000 รายการ บนวิดีโอ 51,000 รายการ ชุดข้อมูลมีความหลากหลายสูงครอบคลุม 47 ประเทศ และวัตถุที่ระบายไว้ในชุดข้อมูลก็มีความหลากหลาย อาจจะหายไประหว่างทาง หรือเข้าออกจากเฟรมได้ด้วย

โดยทั่วไปแล้ว SAM 2 แสดงประสิทธิภาพได้ดีมาก แต่ยังมีข้อจำกัด เช่น การติดตามวัตถุเมื่อมีวัตถุแบบเดียวกันจำนวนมาก (crowded scene) ทำให้มีบางจังหวะจับวัตถุผิดชิ้นได้

โมเดลเปิดให้ใช้งานได้ฟรีในสัญญาอนุญาตแบบ Apache 2.0 ส่วนชุดข้อมูล SA-V เปิดให้ใช้งานแบบ CC BY 4.0

ที่มา - AI at Meta

Blognone Jobs Premium