Meta โชว์คลัสเตอร์ใหม่สำหรับฝึก LLaMA 3 ชิป H100 24,576 ตัว ซื้อเพิ่มต่อเนื่องสิ้นปี 350,000 ตัว

by lew
12 March 2024 - 17:48

Meta รายงานถึงข้อมูลของคลัสเตอร์ใหม่ที่บริษัทใช้ฝึกปัญญาประดิษฐ์ โดยทำขึ้นมาเพื่อออกแบบและฝึก LLaMA 3 โดยเฉพาะ และเป็นพื้นที่ทดสอบสถาปัตยกรรมคลัสเตอร์ใหม่ที่จะขยายต่อไปในอนาคต โดยประกาศแผนว่าจะซื้อเพิ่มไปเรื่อยๆ จนสิ้นปีมีชิป H100 ประมาณ 350,000 ตัว พลังประมวลผลรวมเทียบเท่ากับชิป H100 จำนวน 600,000 ตัว

คลัสเตอร์มีสองชุดหลัก ต่างกันที่ระบบเน็ตเวิร์คที่ต้องรองรับการเข้าถึงแรมข้ามเครื่อง ชุดแรกใช้ remote direct memory access (RDMA) over converged Ethernet (RoCE) เน็ตเวิร์คของ Arista 7800 พร้อม Wedge400 อีกชุดใช้ NVIDIA Quantum2 InfiniBand ทั้งสองชุดมีแบนวิดท์เชื่อมต่อ 400Gbps เท่ากัน โดยตอนนี้พบว่าทั้งสองชุดใช้งานต่างๆ ได้ดี

ตัวเซิร์ฟเวอร์ใช้เครื่อง Grand Teton ที่ Meta ออกแบบเอง สำหรับงาน AI โดยเฉพาะ ระบบสตอเรจเป็นแบบ Flash แล้ว mount เข้าลินุกซ์ด้วยระบบสตอเรจ Tectonic ที่ Meta สร้างมาใช้เองเช่นกัน

ความยากของการสร้างคลัสเตอร์ขนาดใหญ่เช่นนี้คือระบบสื่อสารจะสร้างคอขวดได้อย่างรวดเร็ว ทีมงานต้องออปติไมซ์ทั้งซอฟต์แวร์และตัวเน็ตเวิร์คเองเพื่อให้ประสิทธิภาพกลับไปใกล้เคียง 100% ที่เคยทำได้ในคลัสเตอร์ขนาดเล็ก

ที่มา - Meta

Blognone Jobs Premium