ไมโครซอฟท์ชี้แจงเหตุศูนย์ข้อมูลในสิงคโปร์ล่มเพราะแอร์ดับหนึ่งยี่ห้อ บางบริการคอนฟิกข้ามโซนก็ยังมีปัญหา

by lew
24 February 2023 - 05:18

ไมโครซอฟท์ออกรายงานฉบับเต็มถึงเหตุการณ์ศูนย์ข้อมูลในสิงคโปร์ล่ม จนทำให้บริการจำนวนหนึ่งใช้งานไม่ได้เป็นเวลานานประมาณหนึ่งวันเต็ม โดยต้นตอของปัญหาเกิดจากเหตุไฟตก (power dip) จนทำให้ระบบทำความเย็นทำงานไม่เต็มที่ สร้างปัญญาต่อๆ มาอย่างต่อเนื่อง

รายงานระบุว่ามีระบบทำความเย็นทั้งหมด 8 ชุดจากยี่ห้อ A 5 ชุดและ B 3 ชุด โดยมีชุดหนึ่งของยี่ห้อ A ปิดซ่อมบำรุงตามรอบอยู่ เมื่อเกิดเหตุไฟตกระบบทำความเย็นทั้งหมดปิดตัวลง แต่ทีมงานเปิดระบบของยี่ห้อ B กลับขึ้นมาไม่ได้แม้จะสั่งเปิดเครื่องแบบแมนนวลแล้วก็ตาม ศูนย์ข้อมูลร้อนขึ้นเรื่อยๆ เพราะระบบหล่อเย็น 4 ชุดนั้นไม่เพียงพอ หลังจากตามช่างของผู้ผลิตเข้ามาพบว่าบอร์ดควบคุมคอมเพรสเซอร์ต้องปิดทิ้งไว้ 5 นาทีจึงเปิดกลับขึ้นมาได้เพื่อให้ประจุไฟคายออกให้หมดก่อน แต่คู่มือการทำงานกลับไม่ได้เขียนขั้นตอนนี้ไว้

ระยะเวลาที่นานทำให้น้ำหล่อเย็นร้อนขึ้นเรื่อยๆ จนเกิน 28 องศา ซึ่งทำให้ไม่สามารถเปิดระบบหล่อเย็นได้แม้จะซ่อมอุปกรณ์เสร็จแล้วเพราะจะทำให้ระบบเสียหาย ทีมงานตัดสินใจปิดระบบทั้งหมดเพื่อให้อุณหภูมิลดลง จากนั้นก็เปิดระบบหล่อเย็นกลับขึ้นมาทั้งหมดได้สำเร็จแล้วค่อยเปิดโครงสร้างทั้งหมดกลับขึ้นมา เริ่มจากระบบสตอเรจและระบบประมวลผล (compute)

ผลกระทบต่อเนื่องจากการปิดศูนย์ข้อมูลไปหนึ่งโซน คือ บริการบางตัวที่ผู้ใช้เปิดระบบทำงานข้ามโซนเอาไว้กลับทำงานไม่ถูกต้องระหว่างเหตุการณ์ครั้งนี้ด้วย เนื่องจาก ARM control plane ที่เป็นตัวจัดการบริการต่างๆ นั้นคอนฟิกไว้ในภูมิภาค Southeast Asia ผิด ทำให้ CosmosDB อ่านข้อมูลบางส่วนไม่ได้เมื่อโซนหนึ่งถูกปิดไป บริการที่ได้รับผลกระทบได้แก่ Azure Site Recovery (ASR) ลูกค้าบางส่วนย้ายไซต์ไม่สำเร็จ, Azure Backup เกิดความล่าช้าระหว่างการกู้คืนข้อมูล, Azure Storage ที่เปิดการทำงานข้ามภูมิภาคบางรายไม่สามารถใช้งานต่อเนื่องได้ เพราะระบบตรวจสอบความถูกต้องข้อมูลบล็อคการทำ failover เอาไว้, Azure SQL มีปัญหากู้ระบบได้ช้าประมาณ 90 นาที และลูกค้าบางส่วนที่รอศูนย์ข้อมูลเปิดกลับมาก็กลับไม่สามารถใช้ Azure SQL ได้เพราะเซิร์ฟเวอร์มีปัญหาจากบั๊กใน BIOS จนต้องใช้เวลาแก้ไขต่ออีกวัน

ที่มา - Azure Status

Blognone Jobs Premium