Dropbox ลองถอดปลั๊กศูนย์ข้อมูลออกเลย ดูว่าระบบ Disaster Recovery ทำงานได้จริงไหม

by mk
7 May 2022 - 07:15

ถ้ายังจำกันได้ Dropbox เป็นบริการออนไลน์ที่เลิกใช้คลาวด์ AWS และหันมาสร้างศูนย์ข้อมูลเองเพราะประหยัดกว่า กรณีของ Dropbox อาจเกิดได้ไม่บ่อย เพราะบริษัทที่มีความจำเป็นการเก็บสตอเรจขนาดใหญ่ระดับที่เป็นเจ้าของศูนย์ข้อมูลเองแล้วคุ้ม อาจมีไม่เยอะนัก

ล่าสุด Dropbox เพิ่งเปิดเผยว่าทดลองถอดปลั๊กศูนย์ข้อมูลหลักที่เมือง San Jose ในแคลิฟอร์เนีย เพื่อทดสอบระบบ Disaster Readiness (DR) ว่าทำงานได้ตามที่วางแผนไว้หรือไม่ โดยเป็นการจำลองสถานการณ์ว่าหากเมือง San Jose เจอแผ่นดินไหวจนศูนย์ข้อมูลดับทั้งหมด บริการจะยังออนไลน์ต่อได้

Dropbox บอกว่ามีวิธีวัดความพร้อมด้วยเมทริกชื่อ Recovery Time Objective (RTO) เป็นการวัดว่าใช้เวลานานแค่ไหนในการฟื้นตัวจากระบบล่มครั้งใหญ่

เบื้องหลังของการลดค่า RTO เป็นงานใหญ่ยักษ์ที่ต้องปรับสถาปัตยกรรมเบื้องหลังของ Dropbox อยู่หลายปี เพื่อทำระบบ failover ให้เข้มแข็งขึ้นเรื่อยๆ มีทั้งการใช้ซอฟต์แวร์จากข้างนอกและพัฒนาระบบจัดการภายในขึ้นมาเอง (ตอนแรกตั้งใจเป็น active-active แต่พบว่าซับซ้อนเกินไป เลยเปลี่ยนเป้าหมายเป็น active-passive)

หลังจากพัฒนาระบบจนมั่นใจแล้ว Dropbox จึงตัดสินใจลองถอดปลั๊กศูนย์ข้อมูล (ถอดปลั๊กจริงในทางกายภาพเลย ไม่ใช่ลองตัดระบบ) ซึ่งใช้เวลาวางแผนและซ้อมล่วงหน้า 2 เดือน ระหว่างซ้อมก็เจอปัญหาบางอย่างที่ไม่คาดฝัน ต้องซ้อมถึง 2 รอบกว่าจะมั่นใจว่าเอาอยู่

พอถึงวันจริง ก็ให้พนักงานไปยืนถอดสายที่หน้าตู้เซิร์ฟเวอร์เพื่อซ้อมระบบล่มจริงเป็นเวลานาน 30 นาที ผลลัพธ์ออกมาดีตามที่วางแผนไว้ ว่าระบบสามารถสลับไปใช้ศูนย์ข้อมูลอีกแห่งที่เมือง Dallas Fort Worth ได้ตามเป้าหมาย

ที่มา - Dropbox

Blognone Jobs Premium