กูเกิลและไมโครซอฟท์ออกมาแสดงระบบสร้างคำบรรยายรูปอัตโนมัติในงาน Microsoft COCO (Microsoft CommonObjects in Context (COCO) Captioning Challenge) งานนี้เป็นหนึ่งในงานสำหรับผู้วิจัยที่ทำงานในสายงานระบบรับรู้หรือแยกแยะรูปภาพ
งานนี้จึงเป็นโอกาสดีที่จะโชว์ความสามารถของระบบในการวิเคราะห์คำและรูปภาพจากกูเกิล กูเกิลได้ให้รายละเอียดของระบบลงในรายงานเรื่อง Show and Tell: A Neural Image Caption Generator ว่ามีความสามารถทัดเทียมกับระบบสองระบบจากไมโครซอฟท์ในรายงานเรื่อง From Captions to Visual Concepts and Back จากทีมวิจัยจากมหาวิทยาลัยมอนทรีออลและ Language Models for Image Captioning: The Quirks and What Works จากทีมวิจัยมหาวิทยาลัยโตรอนโต ซึ่งระบบจากทั้งกูเกิลและไมโครซอฟต์สามารถทำการแบ่งประเภทของวัตถุในรูปภาพและทำการเขียนคำบรรยายรูปได้หลากหลายคำต่อหนึ่งรูป จากรูปจำนวนกว่าแสนๆ รูปได้ดีเท่าๆ กัน ส่วนไป่ตู้และทีมวิจัยจากมหาวิทยาลัยแคลิฟอร์เนียได้คะแนนรองลงมา
การตัดสินใช้วิธีการจัดอันดับโดยใช้เปอร์เซ็นต์ของคำบรรยายที่ดีเท่ามนุษย์สร้างขึ้น และเปอร์เซ็นต์ของคำบรรยายที่ผ่านการทดสอบของทัวริง (Turing Test)
ระบบจากทั้งกูเกิลและไมโครซอฟท์ต่างใช้ deep learning เช่นเดียวกับบริการที่เปิดให้คนทั่วไปใช้ อย่าง Google Photos และ How-Old.net บริการทายอายุจากภาพถ่ายของไมโครซอฟท์ และทั้งคู่ยังพัฒนา deep learning อย่างต่อเนื่อง เช่นเดียวกับไป่ตู้ และเฟซบุ๊กที่เพิ่งเปิดศูนย์วิจัยด้านนี้ในปารีส
ที่มา – VentureBeat