美國一數據中心斷電,客戶服務中斷超40小時
01
數據中心的運維管理水平跟不上,
要付出多大的代價?
11月2日,全球知名網絡性能與安全服務商Cloudflare發生服務中斷事故,直到40個小時后,所有服務才全部恢復上線。
中斷原因是Cloudflare租用的Flexential數據中心,在當日凌晨四點左右發生了變壓器接地故障,導致機房斷電。
據說在嘗試恢復供電的過程中,有三件事阻礙了發電機的重新啟動:
? 首先,由于接地故障導致電路跳閘,因此需要實際進入并手動重新啟動;
? 其次,Flexential的訪問控制系統沒有備用電池供電,因此處于離線狀態;
? 第三,現場值守的夜班人員中沒有經驗豐富的運維或電力專家,只有一名保安和一名才剛剛上崗一周的技術人員。
由于發電機沒有完全重新啟動,UPS電池耗盡,數據中心的所有客戶都斷電了。在整個過程中,Flexential從未告知Cloudflare該設施存在任何問題。
更加不幸的是,當天中午,當 Flexential試圖重新啟動Cloudflare的電路時,發現斷路器出現了故障,而現有的斷路器庫存不夠了,需要臨時采購。
直到斷電發生的11個小時后,Flexential才終于更換了發生故障的斷路器,恢復了兩路市電供應,確認電力供應正常。Cloudflare也隨之開始逐步恢復服務。
這事兒一出,讓人不禁感嘆Flexential這家數據中心的運維管理也太不靠譜了。不專業的供電方式、讓缺乏經驗的新員工獨立值班、缺少零部件、不與客戶及時溝通都加深了本次事故的嚴重性。想必Cloudflare經歷過這次“災難”,也要重新考慮是否續租了。
數據中心設施復雜,管理難度大,專業性強,必須建立規范的運維體系和管理制度、配備專業度高的運維團隊,才能真正保證數據中心安全、高效運行。
02
人手不要“省”
“忙”,用來形容數據中心的運維工作再合適不過。要保障業務的穩定性,除了要求運維團隊7*24小時進行輪班值守、實時監控系統運行情況、對基礎設備設施進行巡檢,還需要電氣、暖通、弱電等系統的技術人員對機房基礎設施提供運維技術支持、解決技術問題、進行優化改造工程等。因此,充足的人手是至關重要的。
運維團隊的配置應根據數據中心的等級和SLA(服務要求協議)來確定,要注意:
1.數量:必須有足夠數量的合格員工和/或供應商來執行運維工作;
2.資質:所有工作人員必須具備必要的經驗和技術資格;
3.分工:每個崗位的角色和職責都應是明確的。
高等級以及具有一定規模的數據中心,每個班組應配備具有電力、暖通、弱電專業能力的運維人員,以達到“即時應急響應”的工作狀態。等級相對低的機房,每個班需要至少配備一人,達到“即時報警”的工作狀態。關鍵管理人員或關鍵崗位人員應采用A、B 角色配置,以保證工作連續性。
03
戰斗力是“練”出來的
人手夠了,但真碰到事兒,能扛得住嗎?
還是得練!
培訓和演練可確保所有人員(包括供應商)了解在數據中心工作的政策、程序和特殊要求,對于避免計劃外停機、確保對預期和計劃外事件做出正確反應至關重要。
運維團隊應針對所有可能發生的故障場景制定完整的應急預案,包括環境(火災、逃生、防臺防汛等)、電氣、暖通、消防、弱電等專業的應急預案。然后,運維團隊應對應急預案進行定期培訓及演練,在條件允許的情況下盡量真實地處理故障,不斷優化、完善應急預案的場景及有效性。
對新員工,更要進行完整嚴格的上崗培訓。數據中心禁不起“試錯”,實習或新入職員工禁止獨立執行相關工作任務。管理者也不要松懈,應積極參與行業交流,了解行業最佳的運維管理實踐,并從行業故障案例中總結經驗,做好自身整改。
為了推動整個運維團隊技術和素質的發展和改進,有必要建立人員的關鍵績效指標,定期對所有人員的短期和長期績效進行評估,獎優罰劣。


