Cloudflare ชี้แจงเหตุล่ม คอนฟิก BGP ผิดจนเราท์ภายในหาย

by lew
22 June 2022 - 03:21

Cloudflare ออกรายงานถึงเหตุล่มเมื่อวานนี้ โดยพบว่าเป็นการคอนฟิก BGP ผิดพลาด ทำให้ตัวกรองเราท์ BGP ไม่ยอมรับเราท์ภายในของ Cloudflare เองจนเป็นเหตุให้ระบบมีปัญหาในที่สุด

ความยากของปัญหาครั้งนี้คือคอนฟิกนี้จะมีปัญหากับศูนย์ข้อมูลแบบใหม่ที่ Cloudflare เพิ่งปรับปรุงในช่วงปีที่ผ่านมา เรียกว่า Multi-Colo PoP (MCP) เป็นสถาปัตยกรรมศูนย์ข้อมูลภายในที่ช่วยให้ Cloudflare ซ่อมบำรุงบางส่วนของศูนย์ข้อมูลได้โดยระบบยังทำงานต่อไปได้ แต่ไม่มีปัญหากับศูนย์ข้อมูลแบบเดิมๆ ของ Cloudflare เอง

หลังวิศวกรคอนฟิกระบบใหม่เข้าไปแล้ว กว่าคอนฟิกจะขยายไปถึงศูนย์ข้อมูลที่เป็น MCP ก็ใช้เวลานานกว่าสองชั่วโมง และคอนฟิกกระจายไปยังศูนย์ข้อมูล MCP ทั้ง 19 แห่งอย่างรวดเร็ว อัตรารีเควสที่เข้ามาถึง Cloudflare ก็ลดลงครึ่งเดียวทันที

ทีมงานใช้เวลาประมาณครึ่งชั่วโมงในการหาต้นเหตุของปัญหา และเนื่องจากคอนฟิกเข้าระบบไประยะหนึ่งแล้วทำให้มีการแก้ไขคอนฟิกอื่นๆ ซ้อนเข้าไปอีก ทำให้ต้องถอนคอนฟิกเหล่านั้นออกไปด้วย รวมใช้เวลาประมาณ 40 นาที

ที่มา - Cloudflare

Blognone Jobs Premium