เฟซบุ๊กเล่ารายละเอียดเหตุล่ม ระบุเริ่มจากวิศวกรทดสอบความเร็วลิงก์

by lew
5 October 2021 - 18:38

เฟซบุ๊กเขียนบล็อกเล่าถึงเหตุล่มเมื่อวานนี้โดยเพิ่มรายละเอียดเพิ่มเติม ระบุว่าเหตุทั้งหมดเกิดจากการซ่อมบำรุง และวิศวกรส่งคำสั่งเพื่อทดสอบว่าลิงก์แกนกลางยังรับทราฟิกได้เพียงใด (global backbone capacity) แต่คำสั่งนั้นกลับทำให้ลิงก์แกนกลางล่มไปทั้งหมดทันที โดยปกติแล้วระบบของเฟซบุ๊กจะป้องกันไม่ให้ใครส่งคำสั่งอันตรายเช่นนี้ แต่ซอฟต์แวร์ตัวนี้กลับมีบั๊กทำให้คำสั่งรันไปได้

หลังจากลิงก์แกนกลางล่มไปแล้ว เหล่าเซิร์ฟเวอร์ DNS ที่อยู่ในศูนย์ข้อมูลอื่นๆ ก็พบว่าไม่สามารถติดต่อศูนย์ข้อมูลหลักได้ ระบบของเฟซบุ๊กออกแบบให้เน็ตเวิร์คของ DNS เหล่านี้ถอนการประกาศเราท์ BGP ออกไปทันที เผื่อว่าในกรณีที่ DNS เชื่อมต่อศูนย์ข้อมูลหลักไม่ได้แค่บางแห่ง ผู้ใช้จะได้สามารถเชื่อมต่อ DNS ทางศูนย์ข้อมูลอื่นๆ ได้ แต่เมื่อลิงก์แกนกลางล่มไปแล้ว เซิร์ฟเวอร์ DNS ก็พากันถอนเราท์ BGP ออกไปทั้งหมด ส่งผลให้ระบบ DNS ของเฟซบุ๊กล่มตาม

ถึงตอนนี้วิศวกรของเฟซบุ๊กรู้ว่าต้องเข้าไปกู้ลิงก์แกนกลางในศูนย์ข้อมูล เนื่องจากลิงก์หลักล่มแถม DNS ก็ทำให้เครื่องมือตรวจสอบเน็ตเวิร์คล่มไม่ทำงาน และหลังจากกู้ลิงก์ได้แล้ววิศวกรของเฟซบุ๊กก็ไม่สามารถเปิดระบบกลับขึ้นมาได้ทันที เพราะศูนย์ข้อมูลทั้งหมดที่ล่มไปแต่ละแห่งใช้ไฟฟ้าน้อยลงนับสิบเมกกะวัตต์ การเปิดระบบกลับขึ้นมาทันทีสร้างอันตรายต่อระบบไฟฟ้า แต่เฟซบุ๊กเคยซักซ้อมการเปิดระบบกลับในกรณีเกิดเหตุล่มขนาดใหญ่เช่นนี้มาแล้ว เรียกว่า storm drill

เฟซบุ๊กระบุว่าเหตุที่ช้าเพราะระบบส่วนมากออกแบบไว้เพื่อเน้นความปลอดภัยมากกว่าเหตุล่มที่เจ้าหน้าที่ต้องทำงานหน้าเครื่องเช่นนี้ แต่เหตุแบบนี้ก็เกิดไม่บ่อยนัก

ที่มา - Facebook

Blognone Jobs Premium