Stability AI เปิดตัวโมเดล Stable Audio Open เป็นโมเดลสร้างเสียงจากข้อความ (text-to-audio) แบบโอเพนซอร์ส เวอร์ชันตัดทอนความสามารถลงจาก Stable Audio เวอร์ชันใช้งานเชิงพาณิชย์
ความแตกต่างสำคัญของ Stable Audio Open กับ Stable Audio ตัวเต็มคือเวอร์ชัน Open สามารถสร้างเสียงได้ 47 วินาที เทียบกับตัวเต็ม 3 นาที โดยทาง Stability AI ระบุว่าโมเดล Open ออกแบบมาสำหรับเพื่อสร้างเสียงตัวอย่างและซาวน์เอฟเฟคต์ มากกว่าเป็นการสร้างเพลงแบบเต็มเพลง ตัวอย่างเสียงสามารถฟังได้จากที่มา
โมเดลแบบ Open ยังเทรนข้อมูลด้วยเสียงเพลงจาก FreeSound และ Free Music Archive จึงไม่มีปัญหาลิขสิทธิ์ โมเดลสามารถใช้งานได้แล้วบน Hugging Face
ที่มา - Stability AI