資訊洞察

美國一數據中心斷電，客戶服務中斷超40小時

來源：作者：現代數據中心網發布日期：2023-11-28 訪問次數：997

數據中心的運維管理水平跟不上，

要付出多大的代價？

11月2日，全球知名網絡性能與安全服務商Cloudflare發生服務中斷事故，直到40個小時后，所有服務才全部恢復上線。

中斷原因是Cloudflare租用的Flexential數據中心，在當日凌晨四點左右發生了變壓器接地故障，導致機房斷電。

據說在嘗試恢復供電的過程中，有三件事阻礙了發電機的重新啟動：

? 首先，由于接地故障導致電路跳閘，因此需要實際進入并手動重新啟動；

? 其次，Flexential的訪問控制系統沒有備用電池供電，因此處于離線狀態；

? 第三，現場值守的夜班人員中沒有經驗豐富的運維或電力專家，只有一名保安和一名才剛剛上崗一周的技術人員。

由于發電機沒有完全重新啟動，UPS電池耗盡，數據中心的所有客戶都斷電了。在整個過程中，Flexential從未告知Cloudflare該設施存在任何問題。

更加不幸的是，當天中午，當 Flexential試圖重新啟動Cloudflare的電路時，發現斷路器出現了故障，而現有的斷路器庫存不夠了，需要臨時采購。

直到斷電發生的11個小時后，Flexential才終于更換了發生故障的斷路器，恢復了兩路市電供應，確認電力供應正常。Cloudflare也隨之開始逐步恢復服務。

這事兒一出，讓人不禁感嘆Flexential這家數據中心的運維管理也太不靠譜了。不專業的供電方式、讓缺乏經驗的新員工獨立值班、缺少零部件、不與客戶及時溝通都加深了本次事故的嚴重性。想必Cloudflare經歷過這次“災難”，也要重新考慮是否續租了。

數據中心設施復雜，管理難度大，專業性強，必須建立規范的運維體系和管理制度、配備專業度高的運維團隊，才能真正保證數據中心安全、高效運行。

人手不要“省”

“忙”，用來形容數據中心的運維工作再合適不過。要保障業務的穩定性，除了要求運維團隊7*24小時進行輪班值守、實時監控系統運行情況、對基礎設備設施進行巡檢，還需要電氣、暖通、弱電等系統的技術人員對機房基礎設施提供運維技術支持、解決技術問題、進行優化改造工程等。因此，充足的人手是至關重要的。

運維團隊的配置應根據數據中心的等級和SLA（服務要求協議）來確定，要注意：

1.數量：必須有足夠數量的合格員工和/或供應商來執行運維工作；

2.資質：所有工作人員必須具備必要的經驗和技術資格；

3.分工：每個崗位的角色和職責都應是明確的。

高等級以及具有一定規模的數據中心，每個班組應配備具有電力、暖通、弱電專業能力的運維人員，以達到“即時應急響應”的工作狀態。等級相對低的機房，每個班需要至少配備一人，達到“即時報警”的工作狀態。關鍵管理人員或關鍵崗位人員應采用A、B 角色配置，以保證工作連續性。

戰斗力是“練”出來的

人手夠了，但真碰到事兒，能扛得住嗎？

還是得練！

培訓和演練可確保所有人員（包括供應商）了解在數據中心工作的政策、程序和特殊要求，對于避免計劃外停機、確保對預期和計劃外事件做出正確反應至關重要。

運維團隊應針對所有可能發生的故障場景制定完整的應急預案，包括環境（火災、逃生、防臺防汛等）、電氣、暖通、消防、弱電等專業的應急預案。然后，運維團隊應對應急預案進行定期培訓及演練，在條件允許的情況下盡量真實地處理故障，不斷優化、完善應急預案的場景及有效性。

對新員工，更要進行完整嚴格的上崗培訓。數據中心禁不起“試錯”，實習或新入職員工禁止獨立執行相關工作任務。管理者也不要松懈，應積極參與行業交流，了解行業最佳的運維管理實踐，并從行業故障案例中總結經驗，做好自身整改。

為了推動整個運維團隊技術和素質的發展和改進，有必要建立人員的關鍵績效指標，定期對所有人員的短期和長期績效進行評估，獎優罰劣。

2022年最新无码国产在线视频,亚洲伊人色欲综合网,日日摸日日射,国产欧美日韩精品性爱,大胸美女被吃爽死