最近的幾次數(shù)據(jù)中心停電造成非常最嚴重的停電事故。例如,美國達美航空公司數(shù)據(jù)中心的電力中斷,造成該航空公司1.5億美元的損失,美國"超級碗"的賽場斷電,讓主辦方尷尬不已。而停電可能會隨時影響任何人。
然而,數(shù)據(jù)中心運營商所面臨的困難是確定停電的根本原因,因為電力中斷的原因比較復雜,例如,服務器負載過重,導致系統(tǒng)崩潰;當?shù)仉娏痰墓獑栴},工作人員誤操作的人為因素等。
以下是數(shù)據(jù)中心運營商應該關注的五個最重要的問題,以確保不會發(fā)生數(shù)據(jù)中心停電事故。
(1)可以隨著快速發(fā)展的電力系統(tǒng)遷移嗎?
數(shù)據(jù)中心的不同階段,對電力需求也在變化。服務器或交換機的添加都可能對電力的需求產(chǎn)生重大影響。因此,能夠分析數(shù)據(jù)中心一段時間內(nèi)對電力的需求是非常重要的,以便更容易地進行長期預測。
(2)電源鏈是否受到威脅?
越來越多的數(shù)據(jù)中心連接到網(wǎng)絡,除了機架中包含的終端和訪問點之外,很多渠道可能會成為破壞網(wǎng)路犯罪行為的破壞途徑。
此外,網(wǎng)絡違規(guī)行為甚至不需要通過電線和電纜來實施。狡猾的犯罪分子可能會進入某個數(shù)據(jù)中心,破壞內(nèi)部的電力供應。但是,不僅僅是外部的惡意人員所造成的危害,也要警惕數(shù)據(jù)中心內(nèi)部工作人員的行為。有些知識和經(jīng)驗不足的工作人員在與接口進行交互的過程中犯錯,也會造成不可估量的傷害。
為了防止出現(xiàn)這種情況,運維文檔和流程控制至關重要。采用更多的硬件不是防止災難性停電的最佳選擇,事實上,添加額外的硬件實際上可能使控制情況更加糟糕。
(2)災難恢復計劃是什么?記錄文檔了嗎?
在不影響業(yè)務環(huán)境的情況下進行斷電測試,實際上是采用虛擬開關設備,這將允許數(shù)據(jù)中心運營商可以應對最壞的情況,并實施恢復服務。
數(shù)據(jù)中心工作人員總是假設他們的電源供應鏈和電源備份系統(tǒng)是萬無一失的,但是如果沒有故障安全測試,會認為面臨什么樣的結果?
電源故障模擬使數(shù)據(jù)中心運營商可能找到缺乏冗余的設施,并發(fā)現(xiàn)單點故障。但是,這需要文檔進行記錄。
因此,數(shù)據(jù)中心運營商在災難性的電源故障之前,建立斷電測試機制并記錄其恢復過程。
(4)可以實時監(jiān)控操作嗎?
數(shù)據(jù)中心運營商必須知道哪些設備現(xiàn)在在哪里,使用了多少電能。對于不斷增加基礎架構的數(shù)據(jù)中心來說,這往往會很困難,因為這可能會對電源容量和電源分配產(chǎn)生巨大的影響。
注意所有移動部件的唯一有效方法是單一視圖。這種整體視圖具有實時監(jiān)控和警報的功能,使數(shù)據(jù)中心運營商能夠減輕風險,并進行更改以避免災難發(fā)生。
(5)知道所有互連設備和系統(tǒng)的一切情況嗎?
對于數(shù)據(jù)中心運營至關重要的是,需要電力鏈記錄在一起,從進入建筑物的電力,再通過UPS、PDU/提供給所有的機架設備。這意味著數(shù)據(jù)中心運營需要知道哪些與電力相關的設備,以及設備各自的相互依賴關系。這可以讓數(shù)據(jù)中心運營了解某些設備故障或脫機維護時的潛在影響。此外,還應該了解每個電源鏈設備的狀態(tài)。
可以通過采用數(shù)據(jù)中心基礎架構管理(DCIM)實現(xiàn)對電源管理。DCIM使數(shù)據(jù)中心運營能夠以最高的效率運行數(shù)據(jù)中心,同時允許所有相關人員改進整體運營情況,并識別漏洞,從而保持電源鏈的安全。
部署的DCIM還可以讓數(shù)據(jù)中心運營全面了解自己的產(chǎn)品,通過共享實時數(shù)據(jù)和易于理解的圖表,消除IT和設施之間的通信孤島。
由于數(shù)據(jù)中心停電的原因很多,嘗試用人工方法和電子表格來跟上基礎設施的所有變化是費力的,并引起不可預見的風險。因此,必須采取適當可行的方法和措施進行管理。