เทคโนโลยี Big Data กำลังมาแรงมากขึ้นเรื่อยๆ และซอฟต์แวร์ที่ได้รับการยอมรับว่าเป็นมาตรฐานในวงการแล้วคือ Apache Hadoop (และโครงการที่เกี่ยวข้องอื่นๆ) ซึ่งมีบริษัทมากมายเข้าไปช่วยกันพัฒนากันอย่างเต็มที่
อย่างไรก็ตาม การที่ Hadoop เป็นโครงการโอเพนซอร์สแปลว่ามันยังมีความ "ดิบ" อยู่พอสมควรในการนำมาใช้งานจริง จึงมีบริษัทหน้าใหม่หลายแห่งที่นำ Hadoop มาจัดแพ็กเกจใหม่ ทำระบบติดตั้งและบริหารจัดการ บวกกับฟีเจอร์เสริมอื่นๆ ในลักษณะเดียวกับดิสโทรของลินุกซ์ในอดีต
บริษัทหนึ่งที่เข้ามาทำ Hadoop ในเชิงพาณิชย์เป็นรายแรกๆ คือ MapR (ดูจากชื่อก็น่าจะพอนึกออกว่ามาจาก MapReduce) ซึ่งผมมีโอกาสสัมภาษณ์ทางอีเมลกับคุณ Martin Darling ซึ่งเป็นผู้บริหารดูแลภูมิภาคเอเชียแปซิฟิกของ MapR ครับ (ตำแหน่งอย่างเป็นทางการคือ Vice President, Asia Pacific & Japan) ถึงแนวโน้มของโลก Big Data ครับ
MapR เป็นบริษัทที่ให้บริการ Apache Hadoop สำหรับตลาดองค์กร โดยผลิตภัณฑ์แบ่งออกเป็น 3 ระดับคือ M3, M5, M7 (รุ่น M3 แจกฟรี รุ่นอื่นๆ คิดราคา)
ปัจจุบันนี้ Hadoop มีข้อจำกัดตรงที่ใช้งานยาก ซึ่งภารกิจของ MapR คือทำอย่างไรก็ได้ให้ Hadoop ใช้งานง่ายขึ้น มีประสิทธิภาพดีขึ้น 2-5 เท่าจากรุ่นโอเพนซอร์ส ในราคาที่จับต้องได้ ผลก็คือ MapR เหมาะสำหรับคนที่อยากสกัดข้อมูลจาก Big Data แบบง่ายๆ ในราคาไม่แพง
ต้นกำเนิดของ MapR ต้องการนำนวัตกรรมด้านเทคโนโลยีอย่างการวิเคราะห์ข้อมูลจาก big data มาสู่ภาคธุรกิจ โดยบริษัทใช้วิธีเพิ่มฟีเจอร์ให้กับ Hadoop รุ่นปกติที่พัฒนาโดยชุมชน และบริษัทก็เข้าร่วมการพัฒนา Hadoop แบบโอเพนซอร์สในหลายโครงการย่อย ตอนแรก MapR เน้นไปที่ Hadoop และ HBase API เป็นหลัก แต่ช่วงหลังก็ขยับขยายมายังฟีเจอร์อื่นๆ ในโลกของ Hadoop ด้วย
ผู้ร่วมก่อตั้ง MapR คือ M.C. Srivas เป็นหนึ่งในหัวหน้าทีมโครงสร้างพื้นฐานด้านเซิร์ฟเวอร์ของกูเกิล เคยเข้าร่วมโครงการอย่าง GFS, BigTable, MapReduce ที่เป็นต้นกำเนิดไอเดียของ Hadoop ส่วนผู้ก่อตั้งอีกคนหนึ่งคือ John Schroeder (ซีอีโอของ MapR) ก็เคยมีประสบการณ์การเป็นซีอีโอให้กับบริษัทด้านไอทีองค์กรหลายแห่งที่ขายกิจการให้ไมโครซอฟท์และ EMC
การพัฒนา Hadoop ในช่วงแรกๆ เกิดจากบริษัทอินเทอร์เน็ตชื่อดังอย่าง Facebook/Twitter เหตุเพราะว่าบริษัทนี้มีผู้ใช้เป็นจำนวนมาก และผลิตข้อมูลจำนวนมหาศาลในแต่ละวัน
ข้อมูลเหล่านี้มีค่ามากเพราะมันบอกได้ว่าผู้ใช้งานชอบไม่ชอบอะไร บริโภคอะไร และสามารถนำมาใช้ประกอบการคัดเลือกเนื้อหา (target content) ให้เหมาะกับผู้ใช้แต่ละคนได้ ตัวบริการเองก็จะสร้างประโยชน์กับผู้ใช้งานมากขึ้น และการลงโฆษณาก็แม่นยำมากขึ้น ดังนั้นโค้ดของ Hadoop ในยุคแรกๆ จึงออกแบบมาสำหรับการใช้งานลักษณะนี้เป็นหลัก
แต่ภายหลัง Hadoop ก็พัฒนาขึ้นมาก สามารถนำมาใช้วิเคราะห์ข้อมูลลักษณะอื่นๆ ได้ด้วย โดยโลกไอทีไม่เคยวิเคราะห์ข้อมูลแบบนี้ได้มาก่อน
ดังนั้น Hadoop จึงกลายเป็นเครื่องมือที่ขาดไม่ได้สำหรับภาคธุรกิจที่ต้องตัดสินใจโดยอิงกับเทรนด์ใหม่ๆ ที่สกัดมาจากแหล่งข้อมูลที่หลากหลาย
Martin Darling, Vice President, Asia Pacific & Japan, MapR
ใครก็ตามที่ต้องการวิเคราะห์ข้อมูลขนาดใหญ่ก็สามารถใช้งาน MapR ได้ และเรามีลูกค้าขนาดเล็กๆ หลายรายที่ธุรกิจเน้นหนักไปที่ข้อมูล (extremely data centric)
ลูกค้าขนาดเล็กของเราเริ่มใช้งานแพ็กเกจ MapR ขนาดเล็กๆ (เริ่มที่ 4-5 โหนดประมวลผลก่อน) และค่อยๆ ขยายแพ็กเกจเพิ่มในภายหลังเมื่อสามารถวิเคราะห์ข้อมูลได้ลงลึกมากขึ้น
ถ้าอยากทำงานด้าน Hadoop ทักษะที่ต้องมีเป็นอย่างแรกคือการดูแลระบบลินุกซ์ และควรพัฒนาทักษะด้าน Hadoop โดยเฉพาะ จะมีใบรับรองด้าน Hadoop ด้วยก็ยิ่งดี
นอกจากนี้ถ้าอยากเติบโตในสายงานด้าน Big Data ก็ควรมีทักษะด้านการวิเคราะห์ข้อมูล (data science) เพิ่มเข้ามาด้วย งานสายนักวิเคราะห์ข้อมูล (data scientist) กำลังรุ่งเรืองมาก ถึงขนาดว่า Harvard Business Review ยกให้เป็น "งานที่เซ็กซี่ที่สุดในศตวรรษที่ 21" ซะด้วย
ตลาด Big Data ในเอเชียตะวันออกเฉียงใต้เติบโตเร็วมากในทุกวงการ ไม่ว่าจะเป็นภาครัฐบาล ค้าปลีก การเงิน การผลิต เว็บ-เกม ฯลฯ
เอเชียตะวันออกเฉียงใต้เป็นภูมิภาคที่น่าสนใจมากทั้งในแง่การปรับตัวเข้ากับเทคโนโลยีใหม่ๆ และการพัฒนาทักษะเพื่อรองรับเทคโนโลยีนั้นๆ ปัจจุบัน MapR เพิ่งเจาะตลาดนี้ได้ในระดับหนึ่งและรู้ดีว่าตลาดมีศักยภาพอีกมาก
วิดีโอแนะนำ MapR