Google Cloud ออก Serverless Spark รัน Apache Spark ตามปริมาณการใช้งาน

by mk
8 April 2022 - 02:44

Apache Spark เป็นซอฟต์แวร์วิเคราะห์ข้อมูล big data แบบขนานที่ใช้งานกันอย่างแพร่หลาย และถูกนำไปให้บริการโดยคลาวด์หลายยี่ห้อ (เช่น Azure Databricks หรือ Amazon EMR) ถึงแม้เพิ่มความสะดวกในการดูแลระบบกว่าเดิม แต่ยังคงรูปแบบการเช่าเวลาเครื่องใช้งานเป็นชั่วโมงเหมือนคลาวด์ทั่วไป

ล่าสุด Google Cloud นำเอา Spark มาผสานกับแนวคิด Serverless ที่ไม่ต้องสนใจระบบคลัสเตอร์เบื้องหลังเลย เพราะตัวบริการจัดการเรื่องสเกลให้อัตโนมัติ และจ่ายเงินเฉพาะเท่าที่ใช้งาน

Serverless Spark หรือชื่ออย่างเป็นทางการคือ Dataproc Serverless for Spark ยังสามารถเชื่อมต่อกับ Jupyter notebook และบริการอื่นของกูเกิลอย่าง BigQuery, Vertex AI, Dataplex ด้วย ตอนนี้มีสถานะเป็น GA แล้ว

ที่มา - Google, Google

Blognone Jobs Premium