Apple เผยแพร่งานวิจัย AI ที่สามารถเข้าใจภาพบนหน้าจอ และทำงานตามคำสั่งได้

by arjin
10 April 2024 - 00:58

ทีมนักวิจัยของแอปเปิลเผยแพร่งานวิจัยใหม่ Ferret-UI ซึ่งเป็น Generative AI หรือ AI สร้างเนื้อหา ที่ต้องการแก้ไขปัญหาโมเดลภาษาขนาดใหญ่ข้อมูลผสมผสาน (MLLM - Multimodal Large Language Model) ที่ยังมีข้อจำกัดสำหรับอินพุทรูปภาพ ที่มีรายละเอียดเยอะมาก แต่อาจมีจุดสำคัญไม่กี่อย่าง เช่น ภาพจับหน้าจอโทรศัพท์ (Screen Capture)

สิ่งที่ท้าทายของอินพุทภาพหน้าจอโทรศัพท์คือ อัตราส่วนภาพหน้าจอโทรศัพท์ ที่แตกต่างจากรูปที่ AI นิยมใช้เทรนกัน, ในภาพหน้าจอมีไอคอนหรือปุ่ม ที่มีขนาดเล็ก ความละเอียดต่ำ AI อาจแยกแยะไม่ได้ และหลายกรณีปุ่มเหล่านั้นคือประเด็นสำคัญของอินพุทอีกด้วย

Ferret-UI ถูกเทรนด้วยภาพหน้าจอที่มีคำสั่งหรือสิ่งที่ให้ทำต่าง ๆ จึงสามารถแยกแยะไอคอน ค้นหาข้อความสำคัญ จนถึงข้อมูลวิดเจ็ต ได้โดดเด่นกว่าโมเดลอื่น และความสามารถในการทำงานรองรับกับสิ่งที่เกิดบนหน้าจอได้ ผลทดสอบพบว่าทำงานได้ดีกว่า GPT-4V และ MLLM ตัวอื่นที่เน้นการทำงานกับภาพหน้าจอ

งานวิจัยนี้เน้นอธิบายความสำเร็จของโมเดลนี้ แต่ไม่ได้ลงรายละเอียดว่า Ferret-UI จะนำไปใช้งานด้านใด จึงยังไม่ชัดเจนว่าแอปเปิลจะเพิ่มความสามารถของ AI นี้ กับผู้ใช้งานทุกคนหรือไม่ เพราะมีประเด็นความเป็นส่วนตัว แต่อาจใช้งานได้สำหรับการเข้าถึงของผู้ใช้งานที่มีปัญหาการมองเห็น เป็นต้น

ที่มา: 9to5Mac

Blognone Jobs Premium