เปิดตัว Azure Data Lake แพลตฟอร์มวิเคราะห์ข้อมูลขนาดใหญ่ พร้อมภาษาใหม่ U-SQL

by mk

4 October 2015 - 15:23

ไมโครซอฟท์เปิดตัวบริการใหม่ Azure Data Lake แพลตฟอร์มสำหรับจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ (big data) บนกลุ่มเมฆ

Azure Data Lake ประกอบด้วยชิ้นส่วนย่อย ดังนี้

Azure Data Lake Store เป็นบริการสำหรับจัดเก็บข้อมูล (data store) จากแหล่งอื่น เช่น เว็บไซต์ เซ็นเซอร์ หรืออุปกรณ์ต่างๆ จุดเด่นของมันคือเก็บข้อมูลอยู่บนแพลตฟอร์มของ Azure และเข้ากันได้กับระบบไฟล์ HDFS สามารถนำไปประมวลผลต่อด้วยแอพพลิเคชัน Hadoop ได้
Azure Data Lake Analytics เป็นบริการตัวใหม่สำหรับวิเคราะห์ข้อมูล โดยไมโครซอฟท์นำโค้ดของโครงการ Apache YARN มาปรับปรุงให้ทำงานบน Azure ได้ดีขึ้น
Azure HDInsight ดิสโทร Hadoop/Spark/HBase/Storm เวอร์ชันของไมโครซอฟท์ที่พัฒนามาได้สักระยะแล้ว ล่าสุดออกเวอร์ชันลินุกซ์แล้ว

ส่วนของ Analytics ไมโครซอฟท์ยังพัฒนาภาษาใหม่ชื่อ U-SQL (ย่อมาจาก unified) โดยรวมเอาจุดเด่นของภาษาคิวรีข้อมูล SQL มาผสมกับภาษาโปรแกรมมิ่ง (อิงจาก C#) และภาษา SCOPE ที่ไมโครซอฟท์พัฒนาขึ้นใช้ภายใน การสร้างภาษา U-SQL ช่วยให้การวิเคราะห์ข้อมูลขนาดใหญ่ทำได้ง่ายขึ้น จบในภาษาเดียว และยังคง syntax ที่คุ้นเคยจาก ANSI SQL (ที่ใช้ใน SQL Server) และ C# อีกด้วย

ไมโครซอฟท์จะเปิดบริการ Azure Data Lake รุ่นพรีวิวช่วงปลายปีนี้

ที่มา - Microsoft (Data Lake), Microsoft (U-SQL)

ตัวอย่างภาษา U-SQL

@t = EXTRACT date string
           , time string
           , author string
           , tweet string
     FROM "/input/MyTwitterHistory.csv"
     USING Extractors.Csv();
 
@res = SELECT author
            , COUNT(*) AS tweetcount
       FROM @t
       GROUP BY author;
 
OUTPUT @res TO "/output/MyTwitterAnalysis.csv"
ORDER BY tweetcount DESC
USING Outputters.Csv();

Read on Full Site

Blognone Jobs Premium