SemiAnalysis เว็บไซต์-จดหมายข่าวของวงการเซมิคอนดักเตอร์ ปล่อยงานรีวิวจีพียูระดับเทพ (เทพจริงๆ เพราะไม่สามารถหาซื้อได้ทั่วไป) นั่นคือ AMD Instinct MI300X ความหวังของ AMD ที่จะมาโค่นเจ้าตลาด NVIDIA H100/H200
แนวทางของ AMD คือการให้สเปกฮาร์ดแวร์ที่ดีกว่า NVIDIA เช่น ให้แรมถึง 192GB (H100 มี 80GB, H200 มี 141GB) สมรรถนะแรงกว่า ในราคาถูกกว่า แล้วหวังว่าลูกค้าจะย้ายค่ายมาใช้ AMD แทน
SemiAnalysis บอกว่าใช้เวลา 5 เดือนทดสอบและวิเคราะห์ผลเบนช์มาร์คต่างๆ โดยเฉพาะการเทรนโมเดล แล้วพบว่าสเปกบนกระดาษของ AMD ดีกว่าจริงๆ แต่ในการรันงานจริงนั้น AMD มาตายตรงซอฟต์แวร์อีกเช่นเคย
ผลการทดสอบของ SemiAnalysis บอกว่าซอฟต์แวร์ของ AMD เต็มไปด้วยบั๊ก การตรวจสอบคุณภาพซอฟต์แวร์ (QA) ไม่ดีพอ ในขณะที่ประสิทธิภาพของจีพียู NVIDIA แกะกล่องออกมาเสียบ ทำงานได้ดีเลยโดยไม่ต้องปรับจูนอะไรมาก ฝั่งของ AMD กลับต้องปรับแก้ปัญหา และหา workaround เพื่อให้ซอฟต์แวร์สามารถทำงานได้ (นี่ขนาด SemiAnalysis ติดต่อกับทีมงานของ AMD ตลอดเวลา และปรับปรุงคุณภาพซอฟต์แวร์ให้ดีขึ้นมาระดับหนึ่งแล้วด้วย)
ผลสรุปของการทดสอบครั้งนี้คือ MI300X มีค่าใช้จ่ายรวม (total cost of ownership หรือ TCO) ถูกกว่าจริง แต่ประสิทธิภาพในการเทรนต่อ TCO นั้นแย่กว่า และหาก AMD ต้องใช้เวลาปรับแก้ซอฟต์แวร์อีกนาน ถึงตอนนั้นชิปตัวใหม่คือ NVIDIA Blackwell ก็วางขายแพร่หลายแล้ว
SemiAnalysis เรียกร้องให้ Lisa Su และฝ่ายบริหารของ AMD ทุ่มทรัพยากรด้านซอฟต์แวร์ให้ดีกว่านี้ โดยเฉพาะการทำงานของ PyTorch ที่เป็นซอฟต์แวร์สำคัญในการเทรนโมเดล
หลังจากบทความชิ้นนี้ถูกเผยแพร่ออกมา Dylan Patel ผู้อยู่เบื้องหลัง SemiAnalysis ก็โพสต์ข้อความว่าเขาได้นั่งคุยกับ Lisa Su เป็นเวลานานถึง 1.5 ชั่วโมง และ Su ยอมรับว่ามีปัญหาซอฟต์แวร์อยู่จริงๆ และยินดีจะทำไปแก้ไขอย่างจริงจัง
ที่มา - SemiAnalysis