สถิติ machine learning บน GitHub ปี 2018: numpy เป็นแพคเกจยอดนิยม, TensorFlow เป็นโครงการยอดฮิต

by nutmos
26 January 2019 - 14:46

GitHub รายงานข้อมูลสถิติ contributions บนแพลตฟอร์มประจำปีที่แล้ว โดยเน้นที่ด้าน machine lerning และ data science ว่าตอนนี้ผู้ใช้งานสนใจโปรเจคไหน และภาษาอะไรบ้าง โดยสถิติเรื่องการ contribution จะมีตั้งแต่การพุชโค้ด, เปิด issue หรือ pull request, คอมเมนท์บน issue หรือ pull request และรีวิวตัว pull request

หลังจากที่ทำการเก็บข้อมูลและนำมาทำการวิเคราะห์แล้ว GitHub สรุปเป็นหัวข้อใหญ่ ๆ ดังนี้

หัวข้อแรก คือภาษาที่นิยมใช้ในงานด้าน machine learning บน GitHub ซึ่งใช้วิธีการเก็บข้อมูลจาก repositories ที่แท็กว่า machine-learning และจัดอันดับตามภาษาหลักที่ใช้ใน respositories เป็นสิบอันดับแรกคือ Python, C++, JavaScript, Java, C#, Julia, Shell, R, TypeScript และ Scala

ส่วนถัดไปคือแพคเกจที่นิยมใช้ในงานด้าน machine learning โดยวัดจากการอิมพอร์ตเข้ามายังโปรเจค ซึ่งจากการเก็บข้อมูลแล้ว GitHub สรุปได้ว่าสิบอันดับแรกของแพคเกจที่เป็นที่นิยมคือ numpy, scipy, pandas, matplotlib, scikit-learn, six, tensorflow, requests, python-dateutil และ pytz

สุดท้ายคือโปรเจคด้าน machine learning ที่นิยมบน GitHub โดยเก็บข้อมูลจากโครงการโอเพ่นซอร์สที่มี label ว่า machine-learning โดยเรียงตามจำนวน contributors สิบอันแรกคือ tensorflow/tensorflow, scikit-learn/scikit-learn, explosion/spaCy, JuliaLang/julia, CMU-Perceptual-Computing-Lab/openpose, tensorflow/serving, thtrieu/darkflow, ageitgey/face_recognition, RasaHQ/rasa_nlu และ tesseract-ocr/tesseract

GitHub ระบุว่า การจัดอันดับเหล่านี้ใช้ข้อมูล contributions ระหว่างวันที่ 1 มกราคม - 31 ธันวาคมปีที่แล้ว โดยสำหรับแพคเกจที่ได้รับการอิมพอร์ตมากที่สุด GitHub ใช้ข้อมูลจาก dependency graph ซึ่งจะรวม repositories ทั้งสาธารณะและส่วนตัว

ที่มา - GitHub

Blognone Jobs Premium