ซอฟต์แวร์ด้าน Big Data ที่มาแรงมากในช่วงหลังคือ Apache Spark ซอฟต์แวร์ประมวลผลข้อมูลขนาดใหญ่ด้วยความเร็วสูง เพราะใช้เทคนิคการประมวลผลในแรมที่ต่างไปจาก MapReduce ของ Hadoop
ล่าสุด Spark ออกเวอร์ชัน 2.0 ซึ่งถือเป็นครั้งแรกในรอบสองปีที่ออกเวอร์ชันใหญ่ ของใหม่ในเวอร์ชันนี้มีจำนวนมาก เช่น
- API เวอร์ชันใหม่ ที่สัญญาว่าจะคง API นี้ไปตลอดสาย 2.x ไม่เปลี่ยนแปลง
- รวม API เกี่ยวกับแหล่งข้อมูลสองตัวสำคัญคือ DataFrame และ Dataset เข้าด้วยกัน (สำหรับภาษา Java และ Scala)
- รองรับคำสั่ง SQL ของ SQL2003, ตัว parse คำสั่ง SQL ตัวใหม่
- รองรับการดึงข้อมูลแบบ CSV โดยตรง
- ปรับปรุงประสิทธิภาพให้ดีขึ้น 2-10 เท่าตามแต่ละกรณี เป็นผลมาจาก Project Tungsten โครงการย่อยของ Spark ที่ปรับปรุงวิธีจัดการหน่วยความจำให้ดีขึ้น
- SparkR ตัวเชื่อมต่อกับภาษา R มีฟีเจอร์เพิ่มขึ้นหลายอย่าง โดยเฉพาะพัฒนาอัลกอริทึมสำหรับงานด้าน machine learning
- Structured Streaming เป็น API สำหรับการสตรีมข้อมูลตัวใหม่ ยังอยู่ในสถานะทดลอง (experimental)
ที่มา - Apache Spark, Infoworld