Google Cloud รายงานสาเหตุล่ม: ยิงคอนฟิกผิดทำ routing ออกผิดทางจนเน็ตเวิร์คล่ม

by lew
5 June 2019 - 06:38

Google Cloud รายงานถึงสาเหตุการล่ม 5 ชั่วโมงเมื่อวันจันทร์ที่ผ่านมา โดยระบุว่าเกิดจากการยิงคอนฟิกไปยังเซิร์ฟเวอร์ โดยตั้งใจจะปรับคอนฟิกเซิร์ฟเวอร์จำนวนไม่มากนักในโซนเดียว แต่กลับตั้งค่าผิดพลาดจนคอนฟิกถูกส่งไปยังเซิร์ฟเวอร์จำนวนมาก ในหลายโซน คอนฟิกนี้ทำให้เซิร์ฟเวอร์เหล่านั้นไม่ยอมใช้ช่องทางเน็ตเวิร์คไปครึ่งหนึ่งของที่มีอยู่จริง และพยายามเบียดกันใช้เน็ตเวิร์คส่วนที่เหลือ ทำให้เน็ตเวิร์คเริ่มโอเวอร์โหลด

ผลกระทบโดยรวมได้แก่ การชม YouTube ถูกตัดไป 2.5%, ทราฟิกเข้า Google Cloud Storage ลดลง 30%, และผู้ใช้ Gmail 1% เข้าใช้งานไม่ได้ คิดเป็นผู้ใช้ Gmail นับล้านคน แต่สำหรับบริการอย่าง Google Search แม้จะไม่ล่มเลยแต่กลับมีเวลา latency สูงขึ้นในช่วงเวลาที่มีปัญหา

กูเกิลระบุว่ากำลังทำความเข้าใจถึงสาเหตุของปัญหานี้ทั้งหมด และสร้างแนวทางป้องกันไม่ให้เกิดปัญหาแบบเดียวกันอีกต่อไป

ที่มา - Google Cloud Blog

Blognone Jobs Premium