數據中心最不愿意見到的事情莫過于斷電,這將會給運維人員帶來很多的麻煩,所以很多數據機房都很樂意接受UPS電源,尤其是在線式UPS電源。近來,不少公司因為數據中心的電力中斷而備受困擾,比如美國達美航空公司數據中心的電力中斷,造成高達1.5億美元的經濟損失。又比如美國“超級碗”賽場斷電,耽誤賽事日程。
在運維過程中,數據中心面臨著諸多的挑戰,比如數據中心的運營費用,這就要求建立數據中心之前,進行預算和規劃,又比如能源成本上升采用云主機托管,能源成本上漲可以通過使用新技術緩解,例如虛擬化和云主機托管,可以大大降低能源成本。再比如維護和冷卻要求,數據中心設施和組件需要在適合的溫度下全天不間斷的工作,這就需要完善的冷卻系統,以保持所需的溫度。
其實,數據中心還面臨著溝通融合、基礎設施要求、缺乏資源、服務器效率、數據中心安全、網絡阻塞等挑戰,在這其中,數據中心挑戰也占據著重要的位置,那么是什么原因導致斷電,操作員的誤操作、停電,也有可能是服務器負載過重,導致系統崩潰。雖然數據中心斷電是非常嚴重的問題,但是我們還是希望有相關的解決方案。
在這里,我們需要確定幾個問題。
跟隨數據中心的變化,電力系統進行升級
可以說數據中心的不同階段,對電力需求也在不停的變化,比如增加服務器或者交換機都有可能對電力產生巨大的需求,所以及時掌握數據中心在這一時間段對電力的需求,變得十分重要。此外,還需要對數據中心的供電進行合理的評估,以免數據中心超載,供電不足造成停電的狀況。
知道所有互連設備和系統的一切情況
對于數據中心運營至關重要的是,需要電力鏈記錄在一起,從進入建筑物的電力,再通過UPS、PDU/提供給所有的機架設備。這意味著數據中心運營需要知道哪些與電力相關的設備,以及設備各自的相互依賴關系。這可以讓數據中心運營了解某些設備故障或脫機維護時的潛在影響。此外,還應該了解每個電源鏈設備的狀態。
可以通過采用數據中心基礎架構管理(DCIM)實現對電源管理。DCIM使數據中心運營能夠以最高的效率運行數據中心,同時允許所有相關人員改進整體運營情況,并識別漏洞,從而保持電源鏈的安全。部署的DCIM還可以讓數據中心運營全面了解自己的產品,通過共享實時數據和易于理解的圖表,消除IT和設施之間的通信孤島。
確保電源系統沒有受到攻擊或威脅
數據中心是通過網絡進行連接,當然除了基架中包含的終端和訪問點之外,很多渠道可能會成為破壞數據中心的途徑,所以保護這些渠道免受破壞,成為數據中心建設需要考慮的問題。
在這里,網絡攻擊成為一種可能性,很多黑客可能不直接破壞供電系統,而是通過網絡進入到數據中心,以達到破壞數據中心供電的目的。此外,我們不應該只防止通過網絡手段對數據中心進行破壞的黑客,還應該防止內部人員的破壞,有些工作人員因為自身經驗不足,一個小小的錯誤,有可能導致數據中心供電的中斷。
所以,為了防止通過以上手段進行破壞的行為,建立運維文檔和流程控制變得十分重要。在這里,采用更多的硬件不是防止災難性停電的最佳選擇,不妨采用軟件層面的管理,來的更加穩妥一些。
不妨多模擬故障安全測試,做好完整的災難恢復計劃
數據中心在運營過程中,難免會出一些故障,所謂有備而無患,在真正出bug的狀況下,之前遇到過或者曾經模擬了出錯的場景,才更有經驗去應對故障。在這里,我們建議在不影響業務環境的情況下對數據中心進行斷電測試,使用虛擬的開關設備,將允許數據中心運營商可以應對最壞的情況,并對其進行恢復。
數據中心工作人員總是假設他們的電源供應鏈和電源備份系統是萬無一失的,但是如果沒有故障安全測試,會認為面臨什么樣的結果?電源故障模擬使數據中心運營商可能找到缺乏冗余的設施,并發現單點故障。但是,這需要文檔進行記錄。因此,數據中心運營商在災難性的電源故障之前,建立斷電測試機制并記錄其恢復過程。
數據中心建設應該實時監控操作
對數據中心進行實時監控操作,是以防萬一的做法,所以數據中心運營商必須知道設備都被放在哪里,以及使用了多少電能。雖然對于不斷增加基礎架構的數據中心來說,這很困難,也有可能對電池容量和電源分配產生巨大的影響,但是注意所有移動部件的唯一方法就是單一視圖,這種整體視圖具有實時監控和警報的功能,使數據中心運營商能夠減輕風險,并進行更改以避免災難發生。
寫在最后,數據中心一旦斷電,造成的經濟損失不可估量,倒不如從筆者上述的方法做起,對數據中心每個環節進行防護,這樣才能更好地對數據中心進行運維。