數據中心的中斷問題持續困擾著IT人員。執行數據中心調試或審計,擁有堅實的電源設計,以保護您的組織免受宕機影響。
在其他眾多知名公司之上的美聯航、達美航空和西南航空公司—最近遭受了主數據中心的中斷。而他們的過于公開的關機處理又給IT管理人員的問題清單上增加了另一項煩惱。
據報道,許多這些數據中心的事故是由于電力故障引起的,這并沒有很出乎意料。根據Uptime Institute的研究,發動機發電機系統是數據中心主要的電力來源,應采用公用事業電力作為經濟的選擇。然而,公用事業電力中斷“并不被認為是一種故障,而是一種預期的運行狀況,相關站點必須做好準備。”
換句話說,大多數企業數據中心都可能會發生這樣的電源中斷。對于在其職業生涯之中擔心這種事情的CIO來說,這可能是資助部分所需改進的機會。但是,請注意:簡單地增加冗余設備并非解決之道。
關鍵任務數據中心電源設計的挑戰企業數據中心最大的漏洞是隱藏的缺陷和安裝錯誤。簡單地復制設備和真正的關鍵任務的設計之間的差異是巨大的。然而,為潛在的故障點檢查數據中心電源設計是一個艱巨的過程。考慮聘請高素質的獨立專家為您的組織執行此任務。
您可以通過設計和安裝來不斷審視全新或更新的設施,但另一個問題是在現有設施在使用過程中進行漏洞補救。當您糾正漏洞時,您對操作的公開可能導致事故。但是,即使您不進行風險更正,需了解潛在的故障可能在哪里,以盡量減少數據中心中斷的風險。
并不安全的備用電源
記錄最詳盡的電力故障中斷之一發生在舊金山的365 Main。該公司擁有冗余不間斷電源(UPS)系統和發電機,以滿足客戶對不間斷供電的期望。但是在2007年7月24日,墨菲法案(Murphy's Law)不請自來。
首先是電源故障。數據中心的UPS保持供電,直到發電機啟動。但是不久之后,這些發電機一個接一個地關閉,造成數據中心中斷,這幾個小時影響了公司的高階客戶。
盡管數據中心擁有堅實的電力系統設計,但數據中心運營商并沒有通過調試測試來揭示發電機控制中的問題—固件。相比于反復測試故障和在負載下重啟發動機,管理員選擇依賴于備份電源和冗余的虛構的安全性。
許多現代UPS系統可以指示服務器在電池壽命降到預設閾值以下時開始受控停機。雖然(此方法)不是很理想,但實現此功能遠比在重新啟動時遇到嚴重問題要更好。
如果您可以修復漏洞,請制訂詳細的計劃,了解如何解決此漏洞,以及如何處理補救過程可能導致的潛在故障。例如,如果管理員發出火災報警器,應該有人與他一起處理這種情況,并避免傾倒氣體防火系統和自動停機。并且,如果計劃在工作期間關閉火災報警器,通知設施,安全和消防部門,并確保有人用便攜式滅火器待命。如果存在冷卻故障的潛在可能,則計劃啟動選擇性停機以減少熱負荷并放置便攜式空調作為預防措施。
通過調試盡可能減少數據中心的中斷風險
即使數據中心電源設計是完美的,仍然可能會出現錯誤,管理員只能通過調試來識別。 調試代理不僅查看安裝的正確性,并驗證正確的設置和調整,但也可能會嘗試破壞系統。要完成測試,代理使用一組腳本,在模擬條件下運行基礎設施系統,并關閉各種元素,就好像它們發生故障一樣。
調試過程還包括負載下的總電源關閉,并且可能會在單個設備中引入額外的故障,具體取決于用于設計意圖的可用性級別。該過程還應識別不清楚的標記和無保護或難以達成的關鍵控制,例如關閉電源緊急按鈕沒有保護蓋和警報不響。
對于新設施來說,在設計開發階段開始投產。如果您使用獨立的調試代理,在完成項目設計之前,請確保代理識別并補救出大部分的潛在缺陷。這不僅減少了數據中心中斷的可能性,而且避免了大規模更改訂單成本的潛在可能。
在現有的數據中心,多次關機來查找問題是過于危險的,這是說完全意義上的調試是無法實現的。在這種情況下,請考慮使用數據中心審計,其中涉及到關鍵系統的設計審查和現場測量、測試和檢查等的組合過程。雖然它不會暴露每種潛在的情況,但它可以暴露絕大多數的漏洞,并為實踐中提供補救的辦法和路徑。