Apple ร่วมกับ NVIDIA เผยแพร่เครื่องมือโอเพนซอร์สเพื่อเร่งการทำ LLM Inference

by arjin
20 December 2024 - 14:27

ทีมวิศวกรของฝ่ายวิจัย Machine Learning ของแอปเปิล เผยแพร่รายละเอียดตัวเร่งการทำ LLM Inference โดยร่วมมือกับ NVIDIA เพื่อทดสอบประสิทธิภาพบนจีพียูของ NVIDIA

เครื่องมือที่แอปเปิลพัฒนาและโอเพนซอร์สนี้ชื่อว่า Recurrent Drafter หรือย่อว่า ReDrafter เป็นโมเดลที่รวมสองอัลกอริทึมคือ Beam Search กับ Dynamic Tree Attention เพื่อเร่งความเร็วในการสร้างโทเค็นผลลัพธ์ของ LLM สูงสุดที่ระดับ 3.5 โทเค็นต่อหนึ่งขั้นตอนของโมเดลโอเพนซอร์ส

ผลการทดสอบความเร็วในการสร้างโทเค็นผลลัพธ์ด้วย TensorRT-LLM ของ NVIDIA พบว่า ReDrafter ทำงานได้เร็วกว่าวิธีดั้งเดิม 2.7 เท่า ทำให้วิธีการนี้อาจนำมาช่วยให้การสร้างผลลัพธ์ของ LLM ให้เร็วขึ้นในมุมผู้ใช้งาน และลดการใช้ทรัพยากรจีพียูลงได้ด้วย

รายละเอียดของ ReDrafter และการทดสอบ สามารถดูได้จากที่มา

ที่มา: แอปเปิล และ NVIDIA

Blognone Jobs Premium