NVIDIA โชว์เบนช์มาร์คแรกของ Blackwell B200 รันโมเดล Llama 2 ดีขึ้น 4 เท่าจาก H100

by mk
29 August 2024 - 11:30

NVIDIA เผยผลเบนช์มาร์คแรกของจีพียู Blackwell B200 โดยเป็นเบนช์มาร์ค MLPerf Inference: Datacenter ที่นิยมใช้กันในวงการ AI ทดสอบกับโมเดล Llama 2 70B ผลคือได้ประสิทธิภาพต่อจีพียูสูงกว่าชิป H100 (Hopper) ประมาณ 4 เท่าตัว

ผลการทดสอบของ NVIDIA ใช้เครื่องซีพียู Xeon Silver 4410Y ร่วมกับชิป B200 แรม 180GB ได้คะแนนออกมาดังนี้

  • โหมด Offline (ชุดทดสอบส่งข้อมูลตัวอย่างทั้งหมดให้เซิร์ฟเวอร์รวดเดียว) ได้ 11,264 token/s (เพิ่ม 3.7x เทียบกับ H100)
  • โหมด Server (ชุดทดสอบทยอยส่งข้อมูลตัวอย่างให้เซิร์ฟเวอร์ เลียนแบบการใช้งานจริง) ได้ 10,756 (เพิ่ม 4x เทียบกับ H100)

NVIDIA บอกว่าประสิทธิภาพที่เพิ่มขึ้น มาจากฟีเจอร์ Blackwell FP4 Transformer Engine ที่ต้องแปลงโมเดลเป็นข้อมูลประเภท FP4 ก่อน ช่วยให้ประสิทธิภาพในการรันโมเดลเร็วขึ้นอย่างก้าวกระโดด เพราะจีพียูมีเอนจินสำหรับประมวลผล FP4 ในตัว

NVIDIA ยังโชว์ผลการรัน MLPerf กับจีพียู H200 รุ่นท็อปสุดในปัจจุบันที่ใช้แรมความเร็วสูงแบบ HBM3e มีแบนด์วิดท์แรมเพิ่มขึ้น 1.4x เทียบกับ H100

การรันโมเดล Llama 2 70B โหมด Server โดยใช้จีพียู H200 จำนวน 8 ตัว ได้ผลลัพธ์ที่ 32,790 token/s หรือประมาณ 4,098 token/s ต่อจีพียูหนึ่งตัว

ที่มา - NVIDIA

หมายเหตุ: แผนภาพอธิบายโหมดการทำงานของ MLPerf, ภาพจาก NVIDIA

Blognone Jobs Premium