นักวิจัยดึงข้อมูลภาพประกอบจากหนังสือเก่า 2.6 ล้านภาพ อัพลง Flickr

by mk
31 August 2014 - 12:46

Kalev Leetaru นักวิจัยจากมหาวิทยาลัย Georgetown สกัดรูปภาพจาก "หนังสือเก่า" ที่โครงการ Internet Archive เคยสแกนเอาไว้กว่า 600 ล้านหน้า แล้วอัพโหลดรูปภาพหายากเหล่านี้ขึ้น Flickr ให้เป็นสมบัติสาธารณะ

รูปภาพทั้งหมดดูได้จาก Internet Archive Book Images ปัจจุบันมีรูปถูกอัพโหลดขึ้นไปแล้ว 2.6 ล้านรูป ที่สำคัญคือรูปเหล่านี้มาพร้อมกับ metadata แบบละเอียดมากๆ ทั้งชื่อหนังสือ เลขหน้า และข้อความที่รายล้อมรูปนั้นๆ เพื่อให้รู้บริบทว่ารูปเกี่ยวข้องกับอะไรอีกด้วย

รูปเก่าเหล่านี้มีอายุตั้งแต่ปี 1500 มาจนถึงปี 1922 ที่อายุลิขสิทธิ์ภาพหมดแล้ว ใครสนใจภาพเก่าจากหนังสือเมื่อ 500 ปีก่อนลองดูในหมวด หนังสือปี 1500 ได้ครับ

ตัวอย่างภาพเก่าจากหนังสือปี 1557

ตัวอย่างภาพแผนที่โลกในปี 1672

ตัวอย่างภาพเก่าจากหนังสือปี 1912

กระบวนการทำงานของ Leetaru คือเขียนซอฟต์แวร์สกัดรูปภาพมาจากไฟล์ PDF ที่มีคนสแกนหนังสือเอาไว้แล้ว และใช้ซอฟต์แวร์ OCR ช่วยแปลงข้อความในหนังสือหน้านั้นๆ เป็น text เพื่อให้ค้นข้อมูลได้ง่าย

ที่มา - BBC, Flickr Blog, Internet Archive

Blognone Jobs Premium