OpenAI บอกสาเหตุปัญหาระบบล่ม เกิดจากการดีพลอย service ไม่เกี่ยวกับ Apple Intelligence

by arjin
14 December 2024 - 16:51

OpenAI เผยแพร่รายงานปัญหา ChatGPT, Sora และ API ไม่สามารถใช้งานได้นานกว่า 4 ชั่วโมง ในวันที่ 12 ธันวาคม ตามเวลาในไทย โดยบอกว่าปัญหานี้มาจากการแก้ไขและดีพลอย service ใหม่ ไม่ใช่ปัญหาเรื่องความปลอดภัยหรือการออกฟีเจอร์ใหม่ในวันนั้น

ในรายงานบอกว่ามีการดีพลอย Telemetry service แต่กลับทำให้ Kubernetes API มีโหลดที่เพิ่มสูงขึ้นมาก จนกระทบการทำงานของคลัสเตอร์ Kubernetes ในภาพรวม โดยเฉพาะการทำงานของ DNS จึงเกิดปัญหากระทบผู้ใช้งาน

OpenAI บอกว่าเนื่องจากมีการใช้แคช DNS ทำให้ไม่พบปัญหานี้ในทันทีที่ดีพลอย Telemetry จนกระทั่งแคชหมดอายุใน 20 นาที จึงเจอปัญหานี้และเริ่มแก้ไขในทันที แต่เนื่องจากปัญหานี้กระทบทั้งคลัสเตอร์ Kubernetes จึงใช้เวลานานกว่าจะกลับมาปกติทั้งหมด

OpenAI บอกว่าจะเพิ่มกระบวนการทดสอบ และการตรวจสอบเพิ่มเติมหลังจากนี้เพื่อป้องกันไม่ให้เกิดปัญหาลักษณะนี้ในอนาคต

ที่มา: TechCrunch

Blognone Jobs Premium