ไมโครซอฟท์เล่าเบื้องหลังการสร้างซูเปอร์คอมพิวเตอร์ขนาดใหญ่บน Azure เพื่อให้บริการ OpenAI เทรนโมเดล AI ขนาดใหญ่จนกลายมาเป็น ChatGPT แบบที่เราเห็นกันทุกวันนี้
จุดเริ่มต้นของเรื่องนี้มาจากข้อตกลงระหว่างไมโครซอฟท์กับ OpenAI ในปี 2019 ตอนนั้นไมโครซอฟท์มีระบบเซิร์ฟเวอร์สำหรับเทรนโมเดล AI ของตัวเองอยู่แล้ว (เช่น โมเดลที่ใช้ใน Microsoft Translator หรือตัวตรวจสะกดใน Word) แต่ขีดความสามารถนั้นไม่พอกับที่โมเดลขนาดใหญ่มากๆ ของ OpenAI ต้องการใช้งาน ทำให้ไมโครซอฟท์ต้องหาวิธีออกแบบระบบใหม่
ระบบเบื้องหลังซูเปอร์คอมพิวเตอร์ตัวนี้ใช้จีพียู NVIDIA A100 จำนวน "หลายหมื่นตัว" (tens of thousands) ซึ่งไมโครซอฟท์ประเมินคร่าวๆ ว่าต้นทุนของโครงการอยู่ในหลัก "หลายร้อยล้านดอลลาร์" (several hundred million dollars) แต่มีเงินซื้อจีพียูอย่างเดียวก็ไม่พอ ไมโครซอฟท์ต้องหาวิธีต่อเชื่อมจีพียูจำนวนเยอะขนาดนี้ที่กระจายตัวอยู่ตามศูนย์ข้อมูล 60 เขตทั่วโลกเข้าด้วยกัน
ตัวแกนของเทคโนโลยีเชื่อมต่อความเร็วสูงคือ InfiniBand ของ NVIDIA (จากการซื้อ Mellanox ในปี 2019) แต่ NVIDIA เองก็ไม่เคยนำจีพียูจำนวนเยอะขนาดนี้มาต่อกัน ทำให้ไม่มีใครรู้ว่าข้อจำกัดของเทคโนโลยีเชื่อมต่อเป็นไปได้แค่ไหน
ไมโครซอฟท์ใช้วิธีแบ่งส่วนงาน (partition) แล้วกระจายไปยังคลัสเตอร์ของจีพียูต่างๆ เป็นชุดๆ โดยมี InfiniBand เป็นตัวเชื่อม แต่ก็ต้องพัฒนาซอฟต์แวร์สำหรับกระจายงานทั้งจีพียูและระบบเครือข่ายเพิ่มอีกมาก (ผ่านซอฟต์แวร์ ONNX Runtime ที่เปิดเป็นโอเพนซอร์ส) ซึ่งใช้เวลาหลายปีที่ผ่านมาทำเรื่องนี้ อีกวิธีที่ใช้คือค่อยๆ ขยายจำนวนจีพียูและเครือข่ายทีละน้อย เพื่อดูว่าระบบโดยรวมรองรับได้แค่ไหน รวมถึงมีเรื่องระบบระบายความร้อน ระบบไฟสำรอง ที่ต้องขยายตัวรองรับด้วย
เนื่องจากระบบคอมพิวเตอร์เหล่านี้เป็นของ Azure เป้าหมายจึงเป็นการออกแบบเพื่อเปิดให้คนนอกใช้งานด้วย แม้จุดเริ่มต้นเกิดจากการคัสตอมระบบตามความต้องการของลูกค้าเพียงรายเดียว (OpenAI) แต่วิธีการสร้างเครื่องของ Azure คือสร้างโดยมีโจทย์ให้คนทั่วไปใช้งาน (generalized) ซึ่งตอนนี้เครื่องถูกนำมาให้บริการ Azure OpenAI ที่บุคคลทั่วไปสามารถเช่าเทรนโมเดล
ศูนย์ข้อมูลแห่งหนึ่งของไมโครซอฟท์ที่รัฐวอชิงตัน ที่ให้บริการ OpenAI Service
ตอนนี้ไมโครซอฟท์กำลังสร้างเครื่องซูเปอร์คอมพิวเตอร์ใหม่ที่ใช้จีพียู NVIDIA H100 รุ่นใหม่ ซึ่งจะใช้เทรนโมเดลตัวใหม่ๆ ที่ใหญ่กว่าเดิมขึ้นไปอีก และตอนนี้เริ่มเปิดให้คนนอกเช่าเครื่อง H100 ใช้งานแล้ว