เวลาดูภาพถ่ายใดๆ ถ้าในภาพนั้นมีสถานที่สำคัญ เราคงบอกได้ไม่ยากว่าภาพนั้นถูกถ่ายที่ไหน แต่ถ้าเป็นภาพธรรมดาไม่มีอะไรพิเศษ การแยกแยะสถานที่ถ่ายภาพนั้นย่อมยากขึ้นเยอะ ต้องอาศัยบริบทต่างๆ เช่น ต้นไม้ สถาปัตยกรรม ฯลฯ เข้าช่วย (ลองท้าทายความสามารถด้วยการเปิดเว็บ Geoguessr ที่ดึงภาพจาก Street View มาให้เราทายว่าอยู่ที่ไหนในโลก)
ทีมวิจัยของกูเกิลเปิดตัว PlaNet ปัญญาประดิษฐ์ที่เกิดจากการเทรน deep learning ตัวใหม่ สามารถคาดเดาได้ว่าภาพนั้นถูกถ่ายจากที่ไหน ด้วยความแม่นยำที่เหนือกว่ามนุษย์ด้วยซ้ำ
เทคนิคของ PlaNet ตรงไปตรงมา เพราะใช้ฐานข้อมูลภาพที่มีข้อมูลพิกัด Exif ติดมาด้วยจำนวน 126 ล้านภาพมาประมวลผล วิธีการคือแบ่งพื้นที่โลกเป็นตารางกริดขนาดต่างๆ แล้วเทรนให้ AI เรียนรู้ว่าภาพถ่ายตามพิกัดแต่ละจุดมีลักษณะเป็นอย่างไรบ้าง
ทีมงานใช้ภาพถ่าย 91 ล้านภาพสอนให้ PlaNet เรียนรู้คุณลักษณะของภาพในแต่ละพื้นที่ และใช้อีก 34 ล้านภาพลองทดสอบว่าเครือข่าย neural network ที่สร้างขึ้นใช้งานได้ดีแค่ไหน เมื่อเสร็จสิ้นกระบวนการเทรนแล้ว ก็ลองวิเคราะห์ภาพ 2.3 ล้านภาพใน Flickr ที่มีพิกัดกำกับ ผลคือ
นอกจากนั้นแล้ว ทีมงานยังลองใช้ PlaNet แข่งเกมเดาภาพ Geoguessr แข่งกับมนุษย์ที่มีประสบการณ์เดินทางดีพอ ผลคือ PlaNet ชนะ 28 ใน 50 รอบ และมีค่ามัธยฐานของระยะทางที่ทายผิด (median localization error) 1137.1 กิโลเมตร ในขณะที่ค่ามัธยฐานของมนุษย์ทายผิด 2320.75 กิโลเมตร
ทีมวิจัยบอกว่า PlaNet เก่งกว่ามนุษย์เพราะถูกฝึกฝนให้ผ่านตารูปภาพจำนวนเยอะกว่ามาก และสามารถแยกแยะรายละเอียดเล็กๆ น้อยๆ ในภาพที่มนุษย์ยากจะแยกออกได้
อ่านมาถึงตรงนี้แล้ว หลายคนอาจสงสัยว่า PlaNet ต้องใช้พลังแค่ไหน ตัวโมเดลของ PlaNet ที่เทรนเสร็จเรียบร้อยแล้วมีขนาดเพียง 377MB เท่านั้น ในทางทฤษฎีแล้วสามารถรันได้บนสมาร์ทโฟนด้วยซ้ำ
ที่มา - MIT Technology Review