ชิป NVIDIA Blackwell ออกแบบเพื่อการเทรน LLM โดยเฉพาะ รองรับข้อมูลแบบ FP4 ดันทะลุ 20,000 TFLOPS

by lew
18 March 2024 - 23:08

NVIDIA เปิดตัวชิปกราฟิกรุ่นต่อไปในชื่อสถาปัตยกรรม Blackwell เป็นชิประดับองค์กร โดยชิป B200 มีทรานซิสเตอร์ภายในถึง 208,000 ล้านทรานซิสเตอร์ ตัวชิปจริงๆ เป็นชิปสองตัวประกบเข้าด้วยกันด้วยการเชื่อมต่อความเร็วสูงระดับ 10TB/s แบบเดียวกับ Apple Silicon ในตระกูล Ultra ตัวชิปเชื่อมต่อกับภายนอกด้วย NVLINK รุ่นที่ 5 รองรับการเชื่อมต่อกับชิปกราฟิกภายนอกแบนวิดท์ 7.2TB/s

ภายในหน่วยประมวลของ Blackwell รองรับข้อมูลชนิดใหม่ FP6 และ FP4 สำหรับการรันโมเดลโดยเฉพาะ ทำให้เมื่อรันโมเดลแบบ FP4 สามารถประมวลผลข้อมูลได้ถึง 20,000 TFLOPS ขณะที่ Hopper ได้ที่ 4,000 TFLOPS FP8 และ Blackwell ประมวลผลได้ 10,000 TFLOPS ที่ FP8

ฟีเจอร์ใหม่ๆ ของ Blackwell ได้แก่

  • Decompression Engine: ฟีเจอร์บีบอัดข้อมูลเมื่อเชื่อมต่อกับซีพียู สามารถเปลี่ยนกระบวนการบีบอัดได้ทั้ง LZ4, Snappy, และ DEFLATE
  • RAS Engine: ระบบตรวจสอบสุขภาพชิปว่ายังทำงานได้ดีอยู่หรือไม่ และแจ้งเตือนหากชิปเริ่มมีปัญหา ทำให้สามารถถอดออกจากคลัสเตอร์ระหว่างการฝึกโมเดลขนาดใหญ่ไปได้ก่อนมีปัญหาจริง ลดการระยะเวลาที่ต้องกู้ระบบเมื่อมีปัญหากลางทาง
  • TEE-I/O: ระบบเข้ารหัสข้อมูลที่ส่งออกและรับเข้าจาก NVLink โดยไม่ลดประสิทธิภาพการทำงานลง

ชื่อ Blackwell นั้นตั้งตาม David Blackwell นักคณิตศาสตร์ด้านความน่าจะเป็น, ทฤษฎีเกม, ตลอดจนคอมพิวเตอร์ด้าน dynamic programming

ตอนนี้ Blackwell ส่งมอบทั้งแบบเซิร์ฟเวอร์รุ่นใหม่ และโมดูลอัพเกรดสำหรับคลัสเตอร์เดิมที่ใช้ชิป H100 มาก่อน รวมถึงคลาวด์รายหลักๆ ก็ล้วนกำลังติดตั้ง Blackwell มาให้บริการกันแล้ว

ที่มา - NVIDIA

Blognone Jobs Premium