Reddit รายงานเว็บล่ม 5 ชั่วโมง หลังอัพเกรด เพราะ Kubernetes เลิกใช้ชื่อโหนดว่า master

by lew
25 March 2023 - 18:11

เมื่อกลางเดือนมีนาคมที่ผ่านมาในวันที่ 14 มีนาคมหรือวัน Pi Reddit เว็บบอร์ดยอดนิยม ล่มไปเป็นเวลา 5 ชั่วโมง (ทางเว็บระบุว่าล่มนาน 314 นาทีตรงกับหมายเลข Pi เหมือนกัน) ตอนนี้ทางเว็บก็ออกรายงานว่าเกิดอะไรขึ้นในตอนนั้น

การล่มครั้งนี้เกิดจากทีมงานอัพเกรด Kubernetes จากเวอร์ชั่น 1.23 ไปยัง 1.24 แล้วระบบล่ม โดยทีมงานค่อยๆ อัพเกรดมาแล้วหลายคลัสเตอร์ แต่วันเกิดเหตุนั้นเป็นการอัพเกรดคลัสเตอร์สำคัญที่สุด คือ ระบบ Reddit ดั้งเดิมที่มีโค้ดเก่า

หลังการสั่งอัพเกรดไปสองนาทีเว็บดับลงทันที และทีมงานพบว่าระบบเน็ตเวิร์ค (container network interface - CNI) ของคลัสเตอร์ไม่ทำงาน คอนเทนเนอร์ calico-kube-controllers ค้างอยู่ที่สถานะ ContainerCreating ทีมงานพยายามลบคอนเทนเนอร์ทิ้งเพื่อให้ Kubernetes สร้างคอนเทนเนอร์กลับขึ้นมาแต่ก็ไม่สำเร็จ จนสุดท้ายทีมงานตัดสินใจกู้ระบบจาก backup

หลังจากสอบสวนต้นตอของปัญหาครั้งนี้ ทีมงานก็พบว่าปัญหาอยู่ในคอนฟิกของ Calilco ที่ใช้ควบคุมเน็ตเวิร์ค โดยคอนฟิก BGPPeer นั้นตั้ง nodeSelector ไว้ว่าต้องเป็น Kubernetes master แต่ทาง Kubernetes ตัดสินใจเปลี่ยนชื่อจาก main เป็น control-plane ทำให้คอนฟิกไม่ทำงาน

Kubernetes ตัดสินใจเลิกใช้ว่า master เป็นชื่อโหนดมาตั้งแต่ปี 2020 เนื่องจากเป็นคำไม่เหมาะสม โดยเริ่มใช้คำว่า control-plane มาตั้งแต่เวอร์ชั่น 1.20 และในเวอร์ชั่น 1.24 ก็เลิกซัพพอร์ตคำว่า master

ที่มา - Reddit

Blognone Jobs Premium