Google AI โชว์ทักษะสืบจากภาพ ถึงไม่ติดแท็กสถานที่ก็รู้ได้ว่าถ่ายจากที่ไหน

by ตะโร่งโต้ง
25 February 2016 - 08:57

Google พัฒนา PlaNet ปัญญาประดิษฐ์ที่สามารถเดาได้ว่าภาพถ่ายที่มันเห็นถูกถ่ายจากที่ไหนบนโลก โดยอาศัยข้อมูลจากสิ่งที่ปรากฏในภาพเท่านั้น ไม่ต้องใช้ข้อมูลแท็กสถานที่ (geotag) ของภาพถ่าย

Tobias Weyand ผู้เชี่ยวชาญด้านคอมพิวเตอร์วิทัศน์ของ Google คือผู้นำทีมในการพัฒนา PlaNet พวกเขาสอนให้มันรู้จักภาพถ่ายจากสารพัดสถานที่กระจายกันรอบโลกถึง 126 ล้านภาพ ซึ่งผลลัพธ์ที่ได้ก็ทำให้ PlaNet สามารถระบุสถานที่ที่แต่ละภาพถูกถ่ายมาได้แม่นยำกว่าคนมาก

สำหรับการสอน PlaNet นั้น ทีมพัฒนาทำการแบ่งพื้นที่แผ่นดินของโลกออกเป็น "ช่องตาราง" ยิบย่อยมากกว่า 26,000 ช่อง ซึ่งมีขนาดเล็กใหญ่ต่างกัน (พื้นที่ไหนคนนิยมถ่ายภาพก็ช่องเล็กหน่อย พื้นที่ห่างไกลคนถ่ายรูปน้อยก็ช่องใหญ่ขึ้น) โดยเว้นแต่เขตขั้วโลกที่มีคนไปถ่ายภาพน้อยมาก จากนั้นก็ใช้ภาพถ่าย 126 ล้านภาพเพื่อสอนให้ PlaNet รู้ว่าแต่ละภาพถูกถ่ายมาจาก "ช่องตาราง" ช่องไหน ก่อนเข้าสู่กระบวนการทดสอบความสามารถต่อไป

ทีมของ Weyand ทำการทดสอบ PlaNet ด้วยการให้มันระบุภาพจาก Flickr จำนวน 2.3 ล้านภาพ โดยภาพเหล่านั้นมีการติดแท็กสถานที่ถ่ายภาพไว้แล้ว ทีมของ Weyand พบว่า PlanNet สามารถระบุสถานที่ถ่ายภาพถูกต้องระดับที่ว่าระบุชื่อถนนได้ราว 3.6% แต่หากให้ PlaNet ระบุชื่อเมืองที่แต่ละภาพถูกถ่ายมาจะสามารถตอบได้ถูกต้อง 10.1% หากนับเป็นคำตอบระดับประเทศว่าภาพนี้ถ่ายจากประเทศอะไร PlaNet สามารถตอบได้ถูก 28.4% และถ้าต้องการคำตอบเป็นทวีปแล้ว PlaNet สามารถระบุทวีปที่มาของภาพได้ถูกต้อง 48%

ทีมพัฒนายังเอา PlaNet ไปทดสอบด้วยการแข่งขันเล่นเกมบนเว็บ GeoGuesser แข่งกับคนที่รอบรู้เรื่องการเดินทางทั่วโลกเป็นอย่างดีจำนวน 10 คน เกมดังกล่าวจะแสดงภาพแบบ street view ขึ้นมาบนหน้าจอ แล้วให้ผู้เล่นปักหมุดบนแผนที่โลกเพื่อทายว่าภาพเหล่านั้นเป็นมุมมองจากส่วนไหนของโลก คะแนนของผู้เล่นจะมาจากการปักหมุดบนแผนที่โลกว่าอยู่ห่างจากตำแหน่งจริงของภาพถ่าย street view นั้นกี่กิโลเมตร ผลการแข่งขันคือ PlaNet สามารถเอาชนะไปได้ 28 ครั้งจากการแข่งขัน 50 รอบ ซึ่งค่าเฉลี่ยระยะทางที่ PlaNet ตอบผิดคลาดเคลื่อนไปราว 1,131.7 กิโลเมตร ในขณะผู้เล่นที่เป็นคนมีค่าเฉลี่ยระยะทางที่ตอบผิดคลาดเคลื่อนไป 2,320.75 กิโลเมตร

ไม่เพียงแต่สิ่งปลูกสร้างหรือสถานที่โด่งดังอย่าง หอไอเฟล, พระราชวังต้องห้าม หรือเทพีเสรีภาพเท่านั้น ที่ช่วยให้ PlaNet สามารถระบุสถานที่ถ่ายภาพได้ถูกต้องแม่นยำ แต่ PlaNet เรียนรู้ที่จะจำแนกภาพถ่ายจากรูปแบบของสถาปัตยกรรมของสิ่งปลูกสร้าง, ลักษณะเด่นของสภาพภูมิประเทศ กระทั่งลักษณะเฉพาะของสัตว์และพืชพรรณต่างๆ ซึ่งมีความแตกต่างกันไปในแต่ละท้องถิ่น หรือหน้าตาของอาหาร สิ่งเหล่านี้ที่ปรากฏอยู่ในภาพถ่ายล้วนแล้วแต่มีส่วนช่วยให้ PlaNet ฉลาดขึ้นทั้งนั้น

ทีมของ Weyand กำลังปรับปรุง PlaNet ให้ฉลาดยิ่งขึ้นไปอีก ด้วยการสอนให้มันรู้จักวิธีการทายสถานที่ถ่ายภาพได้แม่นยำขึ้น แม้ว่าภาพนั้นจะถูกถ่ายในร่ม หรือเป็นภาพของวัตถุสิ่งของหรือสัตว์เลี้ยงทั่วไป (ซึ่งสามารถพบเห็นที่ไหนก็ได้ในนานาประเทศคล้ายคลึงกัน) โดย PlaNet จะเรียนรู้ว่าภาพดังกล่าวเป็นส่วนหนึ่งของอัลบั้มไหน จากนั้นก็จะศึกษาจากภาพถ่ายอื่นในอัลบั้มเดียวกันว่าสามารถระบุสถานที่ถ่ายภาพได้หรือไม่ ซึ่งจะช่วยให้ PlaNet พอจะเดาสถานที่ถ่ายภาพทุกภาพในอัลบั้มนั้นได้ว่ามาจากที่เดียวกันนั่นเอง

หากทั้งหมดนี้ยังไม่ "ว้าว!" พอ ทีมพัฒนา PlaNet ระบุว่าสมองกลของพวกเขานั้นเล็กกว่าผลงานพัฒนาอื่นๆ หลายรายมาก ด้วยขนาดแค่ 377MB นั่นทำให้การติดตั้ง PlaNet ลงในอุปกรณ์พกพานั้นไม่ใช่เรื่องยากเลย

ใครสนใจรายละเอียดเพิ่มเติมของงานพัฒนา PlaNet นี้ก็สามารถเข้าไปดูหรือดาวน์โหลดเอกสารได้ที่นี่

ที่มา - MIT Technology Review via Gizmodo

Blognone Jobs Premium