กูเกิลปล่อยโมเดล Gemini 1.5 Pro รองรับอินพุตขนาดใหญ่ 1 ล้านโทเคน, ความสามารถเทียบเท่า Gemini Ultra

by mk
15 February 2024 - 15:36

กูเกิลเพิ่งเปิดตัว Gemini Ultra ไปหมาดๆ วันนี้ปล่อยของต่อเนื่องด้วยโมเดลเวอร์ชันอัพเดต Gemini 1.5 Pro ซึ่งเป็นการอัพเกรดโมเดลระดับกลาง (Pro) ที่มีความสามารถระดับเดียวกับ Gemini 1.0 Ultra แต่ใช้พลังประมวลผลน้อยกว่า

ฟีเจอร์เด่นของ Gemini 1.5 Pro ที่น่าสนใจคือการรองรับอินพุตขนาดใหญ่ถึง 1 ล้านโทเคน ซึ่งถือว่ามากที่สุดในบรรดาโมเดลภาษาขนาดใหญ่ทุกวันนี้ (Anthropic Claude 2.1 รองรับ 2 แสนโทเคน) เปิดโอกาสให้ใช้งานโมเดล LLM กับงานที่หลากหลายขึ้นอีกมาก กูเกิลเทียบให้เห็นภาพว่าเท่ากับคลิปเสียงยาว 11 ชั่วโมง, วิดีโอ 1 ชั่วโมง, เอกสาร 700,000 คำ, โค้ด 30,000 บรรทัด

เบื้องหลังของ Gemini 1.5 เป็นสถาปัตยกรรมใหม่ที่เรียกว่า Mixture-of-Experts (MoE) ซึ่งอิงจากงานวิจัยของกูเกิลในปี 2017 แนวคิดของมันคือการสร้างเครือข่าย neural network ขนาดเล็กที่เชี่ยวชาญเฉพาะเรื่องมาต่อกัน แทนการสร้างเครือข่าย neural network ใหญ่อันเดียว แบบที่ใช้ในโมเดลรุ่นก่อน พอถึงเวลาใช้งาน ก็จะหยิบเฉพาะเครือข่ายที่เกี่ยวข้องมาทำงาน ช่วยให้ประสิทธิภาพของการรันโมเดลดีขึ้นกว่าเดิมมาก

กูเกิลโชว์การรัน Gemini 1.5 โดยให้อ่านบันทึกการสนทนาทั้งหมดของนักบินอวกาศในภารกิจ Apollo 11 ไปดวงจันทร์ ที่ถอดเป็นเอกสารยาว 402 หน้า ผลคือ Gemini สามารถเข้าใจรายละเอียดต่างๆ ของภารกิจได้เป็นอย่างดี

อีกตัวอย่างคือการเอาหนังเงียบเรื่อง Sherlock Jr. (1924) ความยาว 44 นาทียัดเข้าไปใน Gemini ให้ดูหนัง (ที่ไม่มีเสียงพูด) แล้ววิเคราะห์เหตุการณ์ต่างๆ ในเรื่องได้เช่นกัน

ตอนนี้ Gemini 1.5 ยังเปิดทดสอบแบบ early testing โดยยังเปิดให้ใช้งานแบบ 128,000 โทเคนเป็นมาตรฐาน แต่นักพัฒนาและลูกค้าองค์กรบางรายจะได้ทดสอบเวอร์ชัน 1 ล้านโทเคนก่อนใคร

ที่มา - Google

Blognone Jobs Premium