ปัญญาประดิษฐ์ในกลุ่มการวิเคราะห์ภาพทุกวันนี้พัฒนาไปอย่างรวดเร็วในแง่ฟีเจอร์ ทั้งการจัดหมวดหมู่ภาพ, การตรวจจับวัตถุ, หรือการบรรยายภาพ แต่ในความเป็นจริงแล้ว ปัญญาประดิษฐ์ส่วนมากมักรับอินพุตเป็นภาพขนาดเล็กเพื่อวิเคราะห์ ไม่เช่นนั้นโมเดลจะมีขนาดใหญ่เกินไป ล่าสุดกูเกิลโอเพซอร์สโครงการ Mesh-TensorFlow เฟรมเวิร์คสำหรับวิเคราะห์ภาพขนาดใหญ่ระดับร้อยล้านพิกเซล
Mesh-TensorFlow อาศัยการแบ่งภาพเป็นช่องๆ ให้ภาพขนาดเล็กลง แล้วส่งภาพเข้าไปยังชิปฝึกโมเดลปัญญาประดิษฐ์ทีละช่อง ความยากของการทำเช่นนี้คือการวิเคราะห์ "ขอบ" ของแต่ละส่วน ที่มักต้องอาศัยข้อมูลจากช่องข้างเคียง ในเฟรมเวิร์ค Mesh-TensorFlow จะแลกเปลี่ยนข้อมูลบริเวณขอบนี้ระหว่างการรันโมเดลโดยอัตโนมัติ ด้วยเทคนิค Halo Exchange ทำให้ผู้ใช้ไม่ต้องรับรู้ว่าภายในเป็นอย่างไร
งานวิจัยของกูเกิลที่ใช้กับ Mesh-TensorFlow เป็นการวิเคราะห์ภาพ CT แบบสามมิติ จากเดิมที่สามารถฝึกปัญญาประดิษฐ์ด้วยภาพสองมิติขนาด 512x512 พิกเซล หรือภาพสามมิติย่อขนาดลง กูเกิลสามารถฝึกปัญญาประดิษฐ์ที่รับภาพ 512x512x512 หรือกว่า 130 ล้านพิกเซลในครั้งเดียวได้ และได้ปัญญาประดิษฐ์ที่ความแม่นยำสูงขึ้น แม้ว่าจะเพิ่มขึ้นไม่มากนักแล้วก็ตาม แต่การวิเคราะห์ภาพที่ความละเอียดเต็มเช่นนี้ก็อาจจะเปิดแนวทางการใช้งานอื่นๆ ได้ต่อไปในอนาคต
ที่มา - Google AI Blog