กูเกิลประกาศแจกชุดข้อมูล Conceptual Caption ที่เป็นภาพพร้อมคำบรรยาย 3.3 ล้านภาพ โดยหวังว่าจะช่วยขยายขอบเขตการพัฒนาปัญญาประดิษฐ์ จากเดิมที่นักวิจัยมักใช้ชุดข้อมูล COCO ที่มีจำนวนภาพเพียง 120,000 ภาพเท่านั้น
ชุดข้อมูลนี้ไม่ได้สร้างโดยมนุษย์ทั้งหมด แต่อาศัยการดูดข้อมูลเว็บที่มีภาพและมีข้อความกำกับในข้อมูล alt จากนั้นกรองข้อมูลที่ไม่เกี่ยวข้อง ข้อความที่ไม่ถูกไวยกรณ์ และภาพหรือข้อความที่เป็นเนื้อหาสำหรับผู้ใหญ่ หลังจากได้ชุดข้อมูลที่บรรยายดีพอสมควรแล้ว จึงนำข้อความมาแปลงเป็นข้อความทั่วไป โดยเปลี่ยนชื่อคนให้เป็นชื่ออาชีพ, หรือตัดชื่อเมืองออกไป และสุดท้ายคือเลือกเฉพาะภาพที่มีคำสำคัญของแต่ละหมวดหมู่เกิน 100 ภาพเท่านั้น
เบื้องต้นกูเกิลทดสอบคุณค่าของชุดข้อมูล โดยใช้โมเดลบรรยายภาพที่พัฒนาขึ้น มาลองฝึกด้วยชุดข้อมูล COCO และ Conceptual Caption เทียบกัน โดยทดสอบในชุดข้อมูล Flickr30K ที่ไม่เกี่ยวข้องกับข้อมูลทั้งสองชุด แล้วนำข้อความที่ได้มาให้คนตัดสินว่าข้อความดีหรือไม่ ข้อมูลขนาดใหญ่ของ Conceptual Caption ช่วยให้โมเดลแม่นยำขึ้นได้ถึงประมาณ 14%
ใครสนใจพัฒนาโมเดล กูเกิลชวนให้ส่งผลเข้า Conceptual Captions Challenge อีกทาง
ที่มา - Google AI Blog