NVIDIA เปิดตัว Chat with RTX เป็นไคลเอนต์สำหรับรันแช็ทบ็อท Generative AI บนเครื่องพีซีของเราเอง ไม่ต้องพึ่งพาเซิร์ฟเวอร์ภายนอก ช่วยรักษาความเป็นส่วนตัวเรื่องข้อมูลได้ดีกว่าการไปใช้บริการ LLM บนคลาวด์
Chat with RTX เป็นแพลตฟอร์มที่ใช้รันโมเดลภาษาโอเพนซอร์ส (ตอนนี้รองรับ Llama 2 และ Mistral สองตัว) มารันบน Tensor Core ของจีพียู GeForce RTX ซีรีส์ 30 ที่มี VRAM 8GB ขึ้นไป (เบื้องหลังของมันคือ TensorRT-LLM และ RAG on Windows) ตอนนี้ยังรองรับเฉพาะบน Windows 10 และ 11 เท่านั้น
จุดเด่นของ Chat with RTX คือทั้งตัวโมเดล LLM และตัวข้อมูลที่ให้โมเดลอ่านจะอยู่ในเครื่องพีซีเท่านั้น เช่น อ่านจากไฟล์ txt, pdf, doc/docx, xml ในเครื่องเฉพาะโฟลเดอร์ที่กำหนด ป้องกันข้อมูลรั่วไหล แต่ในอีกทางก็ยังสามารถอ้างอิงข้อมูลบนอินเทอร์เน็ต (เช่น ให้ AI ชมวิดีโอบน YouTube ที่ระบุ) ได้ด้วย เช่น สั่งให้สร้างลิสต์สถานที่ท่องเที่ยวแนะนำ จากคลิปที่สนใจ หรือ สร้าง how-to จากแหล่งข้อมูลบนอิทเทอร์เน็๖
NVIDIA บอกว่า Chat with RTX มีสถานะเป็น tech demo และยังไม่ระบุว่าจะผลักดันต่อในระยะยาวหรือไม่ แต่อย่างน้อยก็เป็นตัวอย่างให้เห็นว่า แช็ทบ็อท AI ที่รันแบบโลคัลนั้นสามารถทำได้แล้ว หากสนใจสามารถดาวน์โหลดได้ที่นี่
ทั้งนี้นักพัฒนายังสามารถเขียนแอปจาก RAG on Windows ที่รันด้วย TensorRT-LLM แบบเดียวกันนี้ได้ด้วยเช่นกันจาก GitHub
ที่มา - NVIDIA