Deep Learning ยังไปได้อีกไกล, กูเกิลทดสอบฝึกแยกหมวดหมู่ภาพด้วยชุดข้อมูลยักษ์ 300 ล้านภาพ ผลที่ได้ดีขึ้น

by lew
12 July 2017 - 13:54

งานวิจัยด้านคอมพิวเตอร์เรียนรู้ด้วยตัวเอง (machine learning) ถูกกระแส deep learning กลบแนวทางอื่นแทบทั้งหมด เพราะคนจำนวนมากค้นพบว่าหากข้อมูลมากพอ โมเดล deep learning นั้นสามารถเรียนรู้ได้มากขึ้นเรื่อย ความแม่นยำจะสูงขึ้นเรื่อยๆ ตามปริมาณข้อมูล แต่ในวงการวิจัย ชุดข้อมูลกลับไม่เติบโตขึ้นเท่าใดนัก ชุดข้อมูลภาพ ImageNet จำนวน 1 ล้านภาพใช้งานมาตั้งแต่ปี 2011 แม้ว่าโมเดล deep learning จะซับซ้อนขึ้นอย่างมากในช่วง 5 ปีที่ผ่านมา

กูเกิลทดสอบศักยภาพที่แท้จริงของ deep learning ด้วยการสร้างชุดข้อมูล JFT-300M ที่มีจำนวนภาพถึง 300 ล้านภาพ แบ่งออกเป็น 18,281 หมวดหมู่ (แต่ละภาพมีได้หลายหมวด) รวมมีการแปะหมวดหมู่ประมาณพันล้านครั้ง โดยชุดข้อมูลสร้างจากระบบอัตโนมัติ อาศัยข้อมูลเช่นสัญญาณจากเว็บ, การลิงก์จากเว็บต่างๆ การแปะหมวดหมู่จึงมีความผิดพลาดอยู่ประมาณ 20%

การทดสอบประโยชน์ของข้อมูลมหาศาลขนาดนี้ กูเกิลทดสอบปัญหาสี่ประเภท ได้แก่ การจัดหมวดหมู่ภาพ, การจับวัตถุในภาพ, การแบ่งส่วนของภาพ (segmentation), และการบรรยายท่าของคนในภาพ ปัญหาทั้งหมดใช้โมเดลเริ่มต้นจาก ResNet-101

กูเกิลฝึก ResNet-101 โดยใช้ข้อมูล JFT-300M ไป 36 ล้านรอบ (iteration) ก่อนจะมาปรับค่าด้วยข้อมูล ImageNet อีกครั้ง ทำให้ได้โมเดลที่มีความแม่นยำสูงขึ้น และนำค่า weight นี้ไปใช้งานในปัญหาอื่นๆ ตามมา โมเดลที่เริ่มต้นด้วยการใช้ JFT-300M มีความแม่นยำสูงกว่าโมเดิลที่เริ่มต้นด้วย ImageNet อย่างชัดเจน

กระบวนการฝึก ResNet ด้วย JFT-300M ของกูเกิล ใช้การ์ด NVIDIA K80 จำนวน 50 ใบ ฝึกกับข้อมูลขนาด batch ละ 32 ภาพ รวม 36 ล้านรอบหรือ 4 epoch รวมเวลา 2 เดือน โดยความตั้งใจแรกทีมงานอยากฝึกให้ครบ 10 epoch แต่พบว่าใช้เวลานานเกินไป

กูเกิลเรียกร้องให้ชุมชนวิจัยช่วยกันสร้างชุดข้อมูลที่ใหญ่กว่านี้เพื่อให้วงการก้าวหน้า โดยตั้งเป้าให้มีข้อมูลขนาดพันล้านภาพต่อไป

ที่มา - Google Research

Blognone Jobs Premium