SRE ต้องดูทุกอย่าง กูเกิลเล่าประสบการณ์ดูแลศูนย์ข้อมูลพบเซิร์ฟเวอร์ "ล้อแตก"

by lew
17 March 2020 - 18:33

Steve McGhee วิศวกรตำแหน่ง Solutions Architect เล่าถึงการทำงานของตำแหน่งงาน site reliability engineering (SRE) ใน Google Cloud โดยเล่าถึงเหตุการณ์เซิร์ฟเวอร์ load balancer หรือ GFE (Google front end) เริ่มทำงานผิดพลาด ทำให้ SRE ที่เข้าเวรได้รับการแจ้งเตือน

SRE ที่เข้าเวรดึงทราฟิกทั้งหมดออกจากเซิร์ฟเวอร์ที่มีปัญหาทันที จากนั้นไล่ตรวจสาเหตุตั้งแต่เน็ตเวิร์คไปจนถึงตัวเซิร์ฟเวอร์ พบข้อความแจ้งเตือนว่าเครื่องร้อนผิดปกติ ทำให้ซีพียูลดสัญญาณนาฬิกาลงเพื่อลดความร้อน เมื่อไล่ตรวจสอบกลุ่มเครื่องที่มีปัญหาพบว่าทั้งหมดอยู่ในตู้เดียวกัน ไม่มีปัญหากับเครื่องอื่น เมื่อไม่มีอะไรให้ตรวจสอบแล้ว SRE ก็แจ้งไปยังทีมจัดการฮาร์ดแวร์ ที่ส่งคนไปตรวจสอบเครื่อง และพบว่าตู้เซิร์ฟเวอร์ที่อัดเซิร์ฟเวอร์อยู่เต็มนั้น "ล้อแตก" จนทำให้เครื่องเอียง และระบบหล่อเย็นด้วยของเหลวไม่ทำงาน

ทีมฮาร์ดแวร์ซ่อมล้อและนำเซิร์ฟเวอร์กลับที่เดิม แต่งานของ SRE ยังคงทำต่อไปด้วยการตั้งคำว่าถามว่าปัญหานี้เกิดได้อย่างไร และแก้ไขได้อย่างไรบ้าง ทีมงานวิเคราะห์ว่ามีล้อที่มีความเสี่ยงแบบเดียวกันอยู่จำนวนเท่าใด และหลังจากนั้นก็ตัดสินใจส่งล้อชุดใหม่ออกไปซ่อมตู้เซิร์ฟเวอร์ทั้งหมดก่อนเกิดปัญหาอีก

McGhee สรุปแนวทางของ SRE ว่า "เหตุการณ์ที่ก่อปัญหาควรเป็นเหตุการณ์ใหม่" เสมอ ปัญหาทุกอย่างไม่ควรเป็นปัญหาที่เกิดซ้ำ และระบบตรวจสอบที่ครอบคลุม มีการความรับผิดชอบต่อปัญหาทำให้ศูนย์ข้อมูลมีเสถียรภาพมากขึ้น

ที่มา - Google Cloud Blog

Blognone Jobs Premium