Kalev Leetaru นักวิจัยจากมหาวิทยาลัย Georgetown สกัดรูปภาพจาก "หนังสือเก่า" ที่โครงการ Internet Archive เคยสแกนเอาไว้กว่า 600 ล้านหน้า แล้วอัพโหลดรูปภาพหายากเหล่านี้ขึ้น Flickr ให้เป็นสมบัติสาธารณะ
รูปภาพทั้งหมดดูได้จาก Internet Archive Book Images ปัจจุบันมีรูปถูกอัพโหลดขึ้นไปแล้ว 2.6 ล้านรูป ที่สำคัญคือรูปเหล่านี้มาพร้อมกับ metadata แบบละเอียดมากๆ ทั้งชื่อหนังสือ เลขหน้า และข้อความที่รายล้อมรูปนั้นๆ เพื่อให้รู้บริบทว่ารูปเกี่ยวข้องกับอะไรอีกด้วย
รูปเก่าเหล่านี้มีอายุตั้งแต่ปี 1500 มาจนถึงปี 1922 ที่อายุลิขสิทธิ์ภาพหมดแล้ว ใครสนใจภาพเก่าจากหนังสือเมื่อ 500 ปีก่อนลองดูในหมวด หนังสือปี 1500 ได้ครับ
ตัวอย่างภาพเก่าจากหนังสือปี 1557
ตัวอย่างภาพแผนที่โลกในปี 1672
ตัวอย่างภาพเก่าจากหนังสือปี 1912
กระบวนการทำงานของ Leetaru คือเขียนซอฟต์แวร์สกัดรูปภาพมาจากไฟล์ PDF ที่มีคนสแกนหนังสือเอาไว้แล้ว และใช้ซอฟต์แวร์ OCR ช่วยแปลงข้อความในหนังสือหน้านั้นๆ เป็น text เพื่อให้ค้นข้อมูลได้ง่าย
ที่มา - BBC, Flickr Blog, Internet Archive