บั๊กหน่วยความจำรั่วทำให้ Amazon AWS ล่มรอบล่าสุด

by lew
27 October 2012 - 10:43

ปรากฎการณ์ Amazon AWS ล่มเมื่อสัปดาห์ที่ผ่านมา พาให้เว็บขนาดใหญ่จำนวนมากล่มตามไปด้วย สร้างปัญหาต่อความน่าเชื่อถือของการใช้บริการจากกลุ่มเมฆ ที่แม้จะเป็นบริการจากผู้ให้บริการที่น่าเชื่อถืออย่างอเมซอนก็ยังมีข่าวล่มหลายครั้ง ตอนนี้ทางอเมซอนก็ออกมาชี้แจงปัญหานี้แล้ว โดยปัญหาหลักจากตัวมอนิเตอร์เซิร์ฟเวอร์เวอร์ชั่นใหม่ที่เพิ่งติดตั้งลงไป

ตัวซอฟต์แวร์เก็บข้อมูล (data collection agent) ติดตั้งบนเซิร์ฟเวอร์ทุกตัวในบริการ AWS เพื่อมอนิเตอร์ว่าเครื่องใดต้องการการซ่อมบำรุงหรือไม่ เมื่อติดตั้งลงไปแล้ว ก็เกิดปัญหาภายในอีกอย่างหนึ่ง คือ เซิร์ฟเวอร์ที่เพิ่งนำมาเปลี่ยนเครื่องที่เสียไปนั้น มีปัญหาการอัพเดต DNS ทำให้เครื่องบางส่วนในวงภายในของอเมซอนไม่สามารถติดต่อเครื่องใหม่ที่เพิ่งเข้ามาได้ ปรากฎว่าเมื่อซอฟต์แวร์เก็บข้อมูลรุ่นใหม่พยายามติดต่อเซิร์ฟเวอร์เก็บข้อมูลไม่ได้ มันเกิดการสะสมข้อมูลที่ต้องรายงานกลับไว้ในหน่วยความจำเพิ่มขึ้นเรื่อยๆ

อเมซอนระบุว่าภายในเซิร์ฟเวอร์มีการมอนิเตอร์หน่วยความจำแล้ว แต่ไม่สามารถตรวจสอบปัญหาบางรูปแบบได้ เพราะการใช้หน่วยความจำที่ซับซ้อนของซอฟต์แวร์ของอเมซอนเอง ทำให้ซอฟต์แวร์เก็บข้อมูลที่มีบั๊กกินหน่วยความจำไปเรื่อยๆ จนกระทั่งเครื่องจำนวนมากเริ่มไม่ตอบสนอง และทำให้ AWS ของโซนนั้นๆ ล่มไปในที่สุด

อเมซอนระบุว่าได้แก้ไขทั้งบั๊กในซอฟต์แวร์ และปรับปรุงระบบการมอนิเตอร์ของตัวเองแล้ว เพื่อไม่ให้เกิดปัญหาเช่นนี้ขึ้นอีกในอนาคต และทางอเมซอนขออภัยลูกค้าที่เดือดร้อน

ชื่อเสียไปแบบนี้ ตลาดที่กลัวที่สุดคงเป็นตลาดองค์กรที่คงชะลอแผนการย้ายบริการมาอยู่บนกลุ่มเมฆออกไปอีกสักหน่อย

ที่มา - Amazon

Blognone Jobs Premium