กูเกิล-ไมโครซอฟท์-ยาฮู จับมือเปิดตัว Schema.org กำหนดฟอร์แมตข้อมูลบนเว็บ

by mk
3 June 2011 - 02:52

อ่านแต่หัวข่าวเฉยๆ มันจะเข้าใจยากนิดนึงครับ ขออธิบายเพิ่มดังนี้

"วัตถุ" หรือ "อ็อบเจ็คต์" แต่ละชนิดจะมีข้อมูล metadata ที่อธิบายตัวมันเองแตกต่างกันไป เช่น ภาพยนตร์มีข้อมูลความยาว ผู้กำกับ นักแสดงนำ, หนังสือมีข้อมูลผู้เขียน ปีที่พิมพ์ จำนวนหน้า ฯลฯ ซึ่งเวลาเก็บข้อมูล metadata เหล่านี้ในฐานข้อมูลเฉพาะก็ไม่มีปัญหาอะไร เพราะกำหนดฟิลด์ชัดเจนว่าฟิลด์ไหนหมายถึงอะไร (structured data)

แต่พอ "แสดงผล" ข้อมูลออกมาเป็น HTML บนหน้าเว็บ มันจะกลายเป็นข้อความ text ธรรมดาทั้งหมด (unstructured data) แยกแยะได้ยากว่าข้อความส่วนไหนคือฟิลด์ผู้เขียน ฟิลด์ผู้กำกับ ฯลฯ แน่นอนว่าเราอาจดักจับแพทเทิร์นบางอย่างได้ แต่ไม่ใช่เรื่องง่ายเพราะแต่ละเว็บใช้ไม่เหมือนกัน

ในมุมมองของคนทำ search engine ปัญหานี้ทำให้ผลการค้นหาไม่ดีอย่างที่ควรจะเป็น เพราะ search engine ไม่สามารถสกัดข้อมูลที่ควรจะเป็น structured ออกมาได้

ทางออกหนึ่งของปัญหานี้ก็คือกำหนดฟอร์แมตมาตรฐานให้กับข้อมูล HTML (และหวังว่าคนจะนำไปใช้กันเยอะๆ) ฟอร์แมตข้อมูลลักษณะนี้เรียกว่า microdata (ในอดีตเคยมีโครงการ Microformats พยายามจะทำแบบนี้แต่ไม่ประสบความสำเร็จนัก)

Schema.org เป็นโครงการใหม่ที่พยายามกำหนดฟอร์แมต microdata แต่คราวนี้ไม่ธรรมดาเพราะ search engine ใหญ่ของโลก 3 รายคือกูเกิล ไมโครซอฟท์ ยาฮู หนุนหลังอย่างเต็มที่

Schema.org จะทำตัวเป็นองค์กรกลางสำหรับกำหนดฟอร์แมต microdata รูปแบบต่าง เช่น ภาพยนตร์ หนังสือ สูตรอาหาร รายการทีวี บุคคล เหตุการณ์ องค์กร ฯลฯ (ดูรายการทั้งหมด)

เพื่อให้เห็นภาพกันมากขึ้น ก็ขอโชว์โค้ดตัวอย่างของ schema.org ครับ

ข้อความปกติบนเว็บ

Resistance 3: Fall of Man
by Sony
Platform: Playstation 3
Rated: Mature

ฟอร์แมตที่กำหนดโดย schema.org

<div itemscope itemtype="http://schema.org/CreativeWork">
<img itemprop="image" src="videogame.jpg" />
<span itemprop="name">Resistance 3: Fall of Man</span>
by <span itemprop="author">Sony</span>,
Platform: Playstation 3
Rated:<span itemprop="contentRating">Mature</span>
</div>

จะเห็นว่าฟอร์แมตของ schema.org จะใช้แท็ก HTML ธรรมดา แต่จะเพิ่ม attribute ใหม่มาสองชนิดคือ itemtype และ temprop เป็นต้น

กูเกิลประกาศว่าเดิมทีรองรับฟอร์แมตแบบนี้ 3 ชนิดคือ microformat, RDFa และ microdata (ของ schema.org) ต่อจากนี้ไปจะเน้นที่ microdata เพียงอย่างเดียว แต่ก็จะยังรองรับฟอร์แมตแบบอื่นๆ ต่อไป

กูเกิลยังออกเครื่องมือสำหรับทดสอบเว็บไซต์ว่าเขียนฟอร์แมตของ microdata ถูกต้องหรือไม่ ชื่อว่า Rich Snippets Testing Tool

การร่วมกันผลักดัน schema.org ครั้งนี้ จะคล้ายๆ กับการกำหนดฟอร์แมตของ sitemap ในอดีต (ผ่าน sitemaps.org) ซึ่งภายหลังกลายเป็นมาตรฐานให้เว็บมาสเตอร์ทุกเว็บต้องปฏิบัติตาม คราวนี้ก็ต้องรอดูว่า schema.org จะมีคนใช้มากน้อยแค่ไหน (อาจต้องให้เวลาอีกสักพัก)

ใครที่ทำเว็บรีวิวผลิตภัณฑ์ชนิดต่างๆ อาจพิจารณาใช้งานเพื่อให้ search engine เข้าถึงข้อมูลของเว็บเราได้ดีขึ้น

ที่มา - Search Engine Land

คำประกาศสนับสนุนจาก 3 รายใหญ่: กูเกิล, ไมโครซอฟท์, ยาฮู

Blognone Jobs Premium