Jay Parikh รองประธานผู้ดูแลฝ่ายวิศวกรรมของ Facebook ได้เปิดเผยข้อมูลว่าในปัจจุบัน Facebook ได้ทำการทดสอบซ้อมแผนการรับมือสถานการณ์วิกฤต โดยทีมวิศวกรได้ทดลองทำให้ศูนย์ข้อมูลของตนเองล่มกันจริงๆ เพื่อการทดสอบนี้
Parikh ได้กล่าวบรรยายถึงเรื่องนี้ในงานสัมมนา @Scale งานดังกล่าวเป็นงานที่รวบรวมเอาเจ้าหน้าที่ผู้สร้างและบำรุงรักษาระบบคอมพิวเตอร์ขนาดใหญ่ที่รองรับผู้ใช้งานจำนวนมหาศาล ซึ่งมีเหล่าวิศวกรจากบริษัทใหญ่ๆ อาทิ Google, Airbnb, Dropbox, Spotify, Netflix และบริษัทอื่นอีกมาเข้าร่วมกันมากมาย
Parikh อธิบายถึงที่มาที่ไปของเรื่องนี้ว่า ในปี 2012 พายุเฮอร์ริเคน Sandy ได้พัดผ่านถล่มพื้นที่ซึ่งมีศูนย์ข้อมูลของ Facebook ตั้งอยู่ 2 แห่ง แม้ว่าศูนย์ข้อมูลของ Facebook จะผ่านวาตภัยครั้งนั้นมาได้โดยไม่ได้รับความเสียหาย แต่นั่นก็ทำให้บริษัทตระหนักถึงความเสี่ยงของระบบและคิดจัดตั้งทีม SWAT ขึ้น พร้อมตั้งโครงการ "Project Storm" ซึ่งมีเป้าหมายในการวางแผนและดำเนินการซักซ้อมทดสอบการกู้สถานการณ์ในกรณีที่ศูนย์ข้อมูลของ Facebook ล่มลง
เวลาผ่านไป 2 ปีหลังเริ่มโครงการ Parikh คิดว่าถึงเวลาแล้วที่โครงการ Project Storm พร้อมที่จะเข้าสู่การทดสอบในโลกแห่งความจริง แม้ว่าผู้บริหารหลายคนของ Facebook จะไม่ค่อยอยากเชื่อนักว่าทีม SWAT จะตัดสินใจทดสอบทำให้ศูนย์ข้อมูลของตนเองล่มจริงๆ เพื่องานนี้ แต่ Parikh เชื่อว่าการวางแผนเตรียมขั้นตอนการรับมือวิกฤตศูนย์ข้อมูลล่มไว้เพียงแค่บนกระดาษโดยขาดการทดลองทำกับเหตุการณ์จริงนั้นไม่เพียงพอ
Parikh เล่าว่าการทดลองทำให้ศูนย์ข้อมูลล่มในครั้งแรกเล่นเอาทีมวิศวกรและผู้คนในส่วนอื่นของ Facebook โกลาหลกันพอสมควร แต่สำหรับฝั่งผู้ใช้แล้วไม่มีใครสังเกตเห็นถึงสิ่งที่กำลังเกิดขึ้นในตอนนั้นเลย
Parikh เผยว่าทุกวันนี้ทีม SWAT ยังคงเดินหน้าโครงการ Project Storm และยังมีการทดสอบด้วยการทำให้ศูนย์ข้อมูลล่มอยู่เพื่อปรับปรุงกระบวนการทำงานให้ดีขึ้นอยู่เรื่อยๆ
ที่มา - IEEE Spectrum