Tesla เปิดตัวชิปฝึกปัญญาประดิษฐ์ของตัวเอง สร้างคลัสเตอร์พลังประมวลผล 1.1 exaFLOPS

by lew
20 August 2021 - 06:52

Tesla เปิดตัวชิปฝึกโมเดลปัญญาประดิษฐ์ของตัวเอง เป็นสถาปัตยกรรมเฉพาะชื่อว่า Dojo โดยชิปแต่ละตัวเป็นคอร์ขนาดเล็กพร้อมชุดคำสั่งประมวลผลข้อมูลแบบเวคเตอร์และเมทริกซ์ เชื่อมต่อกับคอร์อื่นๆ ด้วยช่องทางเชื่อมต่อแบนวิดท์สูง

ชิป D1 สถาปัตยกรรม Dojo แต่ละตัวมีซีพียูหรือที่ทาง Tesla เรียกว่า Training Node จำนวน 354 ชุด พลังประมวลผลรวม 362 เทราฟลอบ (ที่ bfloat16) เชื่อมต่อข้อมูลนอกชิปได้ 16 เทราไบต์ต่อวินาที (ด้านละ 4 เทราไบต์ต่อวินาที) ตัวชิปมีสเปคปล่อยความร้อน 400 วัตต์

หลังจากนั้น Tesla นำชิป 25 ตัวมาประกอบเป็นโมดูลชื่อว่า Training Tile มีส่วนประกอบสำหรับการจ่ายไฟและการระบายความร้อน สามารถระบายความร้อนได้ 15,000 วัตต์ พลังประมวลผล 9 เพตาฟลอบที่ bfloat16 เชื่อมต่อภายนอกโมดูลด้วยแบนด์วิดท์ 36 เทราไบต์ต่อวินาที

เซิร์ฟเวอร์แต่ละตัวเรียกว่า Training Matrix เป็นโมดูล Training Tile จำนวน 6 ตัว จากนั้นประกอบเป็นตู้โดยใช้ 6 Training Matrix และรวมเป็นคลัสเตอร์ขนาด 10 ตู้ เรียกว่า ExaPOD พลังประมวลผล 1.1 เอกซาฟลอบ (exaFLOPS) โดยรวมแล้วมีชิป D1 ทั้งหมด 3,000 ชิป รวมมากกว่า 1 ล้านคอร์

เพื่อให้ซอฟต์แวร์ปัญญาประดิษฐ์รองรับสถาปัตยกรรม Dojo ที่ต่างจากการฝึกปัญญาประดิษฐ์บนสถาปัตยกรรมอื่นๆ ทาง Tesla ต้องสร้างชุดซอฟต์แวร์ขึ้นมาใหม่ โดยต้องปรับโค้ด PyTorch เพียงเล็กน้อยเท่านั้น แต่อาศัยการสร้าง Dojo Compiler Engine ที่พัฒนาจาก LLVM มาวางแผนการจัดวางหน่วยประมวลผลและการใช้หน่วยความจำให้รีดประสิทธิภาพของชิป D1 ออกมาให้มากที่สุด

ตอนนี้ทาง Tesla ยังอยู่ระหว่างการสร้างเครื่อง ExaPOD เครื่องแรกเพื่อใช้งานภายใน โดยระบุว่าที่ราคาเท่านั้น ExaPOD ประสิทธิภาพดีกว่าคู่แข่ง 4 เท่าตัว ประสิทธิภาพต่อพลังงานดีกว่า 1.3 เท่าตัว และขณะเดียวกันก็วางแผนสำหรับเครื่องรุ่นที่สองที่คาดว่าจะมีประสิทธิภาพสูงกว่ารุ่นแรกถึง 10 เท่าตัว

ที่มา - Tesla AI Day

Blognone Jobs Premium