Anthropic อัพเดตโมเดล Claude 3.5 ทดสอบเขียนโปรแกรมชนะ o1 พร้อมฟีเจอร์ควบคุมคอมพิวเตอร์แทนคน

by lew
22 October 2024 - 20:13

Anthropic ผู้พัฒนาปัญญาประดิษฐ์แบบ LLM ตู่แข่ง OpenAI ประกาศอัพเดตโมเดล Claude สองรุ่น คือ Sonnet รุ่นกลาง และ Haiku รุ่นเล็ก โดยรอบนี้มีความพิเศษนอกจากเก่งขึ้นตามปกติแล้ว ยังเริ่มทดสอบฟีเจอร์ควบคุมคอมพิวเตอร์แทนคน ให้ผู้ใช้สามารถสั่งงานเป็นคำสั่งแล้ว Claude คลิกหน้าต่างหรือคำสั่งต่างๆ ให้เอง

Sonnet 3.5 นั้นที่จริงเพิ่งอัพเดตไปเมื่อกลางปีที่ผ่านมา รอบนี้ความสามารถด้านต่างๆ ดีขึ้นทุกด้าน และยังเพิ่มการทดสอบ SWE-Bench Verified ของ OpenAI เข้ามา พร้อมกับทำคะแนนชนะทุกโมเดลรวมถึง o1-preview ของ OpenAI อีกชุดทดสอบที่รายงานคือ TAU-bench สำหรับการทดสอบการใช้เครื่องมือในกระบวนการหาคำตอบให้ผู้ใช้ มีพัฒนาจาก Sonnet 3.5 รุ่นเดิมโดยเฉพาะชุดทดสอบสายการบิน

Haiku โมเดลรุ่นเล็กราคาถูก ออกรุ่น 3.5 ครั้งแรก แม้คะแนนทดสอบไม่ได้สูงสุดแต่ก็ใกล้เคียง GPT-4o mini หลายชุดทดสอบ คะแนนทดสอบ SWE-Bench Verified นั้นสูงกว่า GPT-4o เสียอีก

ฟีเจอร์สำคัญที่ Cluade มีเพิ่มเข้ามาคือ computer use เป็นการอ่านภาพและให้ Claude 3.5 Sonnet ส่งคำสั่งเพื่อให้บรรลุเป้าหมาย เช่น หาข้อมูลที่เกี่ยวข้องมากรอกแบบฟอร์ม โดยรวมแล้วเป็นการเขียนโปรแกรมไปครอบคอมพิวเตอร์และเปิด API เป็น tools ให้ Claude เข้ามาดูภาพหน้าจอและส่งคำสั่ง

แม้ว่าทาง Anthorpic จะชู computer use เป็นฟีเจอร์เด่น แต่ผลทดสอบ OSWorld ก็คะแนนไม่สูงนัก 14.9% (22% ถ้ายอมรับผลหาก AI ทำขั้นตอนยาวเกินไปด้วย) แต่ GPT-4o ทำได้เพียง 7.69% และ Gemini-Pro ทำได้เพียง 5.8% เท่านั้น

ที่มา - Anthropic

Blognone Jobs Premium