เปิดตัว Azure Data Lake แพลตฟอร์มวิเคราะห์ข้อมูลขนาดใหญ่ พร้อมภาษาใหม่ U-SQL

by mk
4 October 2015 - 15:23

ไมโครซอฟท์เปิดตัวบริการใหม่ Azure Data Lake แพลตฟอร์มสำหรับจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ (big data) บนกลุ่มเมฆ

Azure Data Lake ประกอบด้วยชิ้นส่วนย่อย ดังนี้

  • Azure Data Lake Store เป็นบริการสำหรับจัดเก็บข้อมูล (data store) จากแหล่งอื่น เช่น เว็บไซต์ เซ็นเซอร์ หรืออุปกรณ์ต่างๆ จุดเด่นของมันคือเก็บข้อมูลอยู่บนแพลตฟอร์มของ Azure และเข้ากันได้กับระบบไฟล์ HDFS สามารถนำไปประมวลผลต่อด้วยแอพพลิเคชัน Hadoop ได้
  • Azure Data Lake Analytics เป็นบริการตัวใหม่สำหรับวิเคราะห์ข้อมูล โดยไมโครซอฟท์นำโค้ดของโครงการ Apache YARN มาปรับปรุงให้ทำงานบน Azure ได้ดีขึ้น
  • Azure HDInsight ดิสโทร Hadoop/Spark/HBase/Storm เวอร์ชันของไมโครซอฟท์ที่พัฒนามาได้สักระยะแล้ว ล่าสุดออกเวอร์ชันลินุกซ์แล้ว

ส่วนของ Analytics ไมโครซอฟท์ยังพัฒนาภาษาใหม่ชื่อ U-SQL (ย่อมาจาก unified) โดยรวมเอาจุดเด่นของภาษาคิวรีข้อมูล SQL มาผสมกับภาษาโปรแกรมมิ่ง (อิงจาก C#) และภาษา SCOPE ที่ไมโครซอฟท์พัฒนาขึ้นใช้ภายใน การสร้างภาษา U-SQL ช่วยให้การวิเคราะห์ข้อมูลขนาดใหญ่ทำได้ง่ายขึ้น จบในภาษาเดียว และยังคง syntax ที่คุ้นเคยจาก ANSI SQL (ที่ใช้ใน SQL Server) และ C# อีกด้วย

ไมโครซอฟท์จะเปิดบริการ Azure Data Lake รุ่นพรีวิวช่วงปลายปีนี้

ที่มา - Microsoft (Data Lake), Microsoft (U-SQL)

ตัวอย่างภาษา U-SQL

@t = EXTRACT date string
           , time string
           , author string
           , tweet string
     FROM "/input/MyTwitterHistory.csv"
     USING Extractors.Csv();
 
@res = SELECT author
            , COUNT(*) AS tweetcount
       FROM @t
       GROUP BY author;
 
OUTPUT @res TO "/output/MyTwitterAnalysis.csv"
ORDER BY tweetcount DESC
USING Outputters.Csv();
Blognone Jobs Premium