เจอตัวการ Cloudflare ชี้ระบบมีปัญหาเพราะ CenturyLink/Level(3) ล่ม

by lew
31 August 2020 - 02:34

เมื่อวานนี้ Cloudflare มีปัญหาบางส่วนยาวนานถึงห้าชั่วโมง วันนี้ทางบริษัทก็ออกรายงานสาเหตุของปัญหา โดยระบุว่าเกิดจากผู้ให้บริการเครือข่าย Level(3) ที่เป็นบริษัทลูกของ CenturyLink มีปัญหา

ระบบอัตโนมัติของ Cloudflare โยกทราฟิกไปยังผู้ให้บริการรายอื่นในทันที ทำให้อัตราการ error ลดลงเหลือ 1 ใน 4 แต่ระบบนี้จะพิจารณาถึงขีดจำกัดของผู้ให้บริการรายอื่นด้วย ทำให้ผู้ใช้จำนวนหนึ่งพบปัญหาต่อไป และทางทีมวิศวกรเข้ามาย้ายทราฟิกด้วยมือภายหลังช่วยลดปัญหาได้อีก 5% แต่เซิร์ฟเวอร์บางรายเชื่อมต่อกับ Cloudflare ผ่าน CenturyLink เท่านั้น ทำให้ไม่มีทางแก้ไขอื่น

ทาง CenturyLink ส่งคำชี้แจงมายัง Cloudflare ว่าต้นตอปัญหาเกิดจากการคอนฟิกไฟร์วอลล์ด้วย Flowspec ที่เป็นส่วนขยายของ BGP โดยไม่บอกรายละเอียดอื่น แต่ทาง Cloudflare ก็ระบุว่าเคยคอนฟิกไฟร์วอลล์ด้วย Flowspec แล้วพลาดจนเน็ตเวิร์คล่มเองเหมือนกัน ความเป็นไปได้หนึ่งคือการคอนฟิก Flowspec แล้วไปบล็อค BGP เอง ทำให้ไม่สามารถส่งอัพเดตเส้นทางไปยังเราท์เตอร์ในเครือข่ายได้

Cloudflare คาดการณ์ถึงสาเหตุที่ทำให้ CenturyLink แก้ไขเครือข่ายได้ช้า ว่าอาจจะเพราะยิง Flowspec แล้วบล็อคทราฟิกจนผู้ดูแลเครือข่ายล็อกอินเข้าเราท์เตอร์ไม่ได้ หรือ CenturyLink อาจจะเชื่อใจลูกค้าบางรายให้ยิง Flowspec เข้ามาในเครือข่ายทำให้ใช้เวลาหาสาเหตุนานขึ้น รวมถึงปัญหาเกิดในวันอาทิตย์ [ที่อาจจะใช้เวลาตามบุคคลากรนาน]

ที่มา - Cloudflare

กราฟทราฟิกของผู้ให้บริการรายหลักที่เชื่อมต่อกับ Cloudflare ทราฟิกของ CenturyLink คือสีส้มแดง

Blognone Jobs Premium