日前,據調研機構對于數據中心的運營調查報告中表示,某些數據中心宕機事件本不應該發生。而其宕機的主要原因并不是由于惡劣天氣、計劃外維護、甚至電網故障等因素導致,相反,這是一些組織糟糕的計劃和維護不當造成的。從航空公司到互聯網巨頭,這些主要的用戶和企業都已經成為了停機中斷事件的受害者,并且也深刻感受到這些可以預防的數據中心中斷事件的影響。然而不幸的是,這種情況并不少見。
數據中心行業廠商通過對歐洲各國IT和數據中心管理人員的調查表明:27%的受訪者表示在過去的三個月遭遇過長時間的中斷,對組織業務產生了不利的影響。絕大多數受訪者(82%)認為大多數關鍵業務流程依賴于IT服務,74%的受訪者表示數據中心的健康狀況直接影響到IT服務的質量。組織業務主要取決于IT服務和IT設備依賴于數據中心的功能。事實上,四分之一以上的數據中心遭受長時間的中斷事件表明在行業層面上有些方法措施是錯誤的。
(1)事先規劃防止電力供應中斷
正如關鍵業務流程依賴IT服務一樣,數據中心本身也必須提供彈性以保持業務運行。它是任何企業風險管理戰略中的核心資產。
工作人員的失誤,備用發電機沒有啟動,驚慌失措的決定等這些錯誤都可以通過正確的流程和完善的電力系統設計來防止。然而,組織往往并沒有遵循數據中心電力管理的黃金法則:行動獲得結果和產生后果需要采取行動。
組織需要災難恢復流程,并明確規定在重新啟動數據中心時應采取哪些步驟。在數據中心停機中斷的情況下,工作人員可能處于忙碌緊張狀態,并面臨恢復正常服務的壓力。畢竟,工作人員的主要目標是盡可能快地恢復正常運營。因此,災難恢復流程有助于避免延長停電時間。
(2)提高工作人員的技能
實際上,數據中心缺乏電源管理意識和理解是一個常見的問題。參與調查的數據中心專業人員中有三分之二的人表明對電力保障沒有充分的信心。而在組織在能夠掌握電源管理(從UPS維護到電池檢查)之前,可能會有更多的與電源相關的停電事件發生。
但是,工作人員的技能對于提高電源可用性有著至關重要的作用。許多組織發現,無論是在能源效率設計、持續管理消費,或快速有效地處理與電力有關的故障,以避免和減輕停電方面,都很難招募和保留相關的專業人員或人才。
(3)更新升級基礎設施
除了提高技能和保障電力之外,數據中心基礎設施本身經常需要更新升級,以滿足企業對其效率,可靠性和靈活性的期望。在這個調查中,大約一半受訪者表示,他們的核心IT基礎架構需要加強,而近三分之二的受訪者表示需要加強電力和冷卻等方面的設施。
電源管理越來越成為一種軟件定義的活動。鑒于工作人員的技能方面的差距,軟件可以通過IT人員熟悉的儀表板來提供電源管理選項,以彌合IT部門和電源之間的鴻溝,從而更輕松地進行管理,并實現電力基礎設施管理的自動化。采用這種技術可以減少或消除數據中心的停機時間。
行業廠商已經向數據中心的虛擬化環境方向發展。IT和數據中心的專業人員如今已經非常熟悉使用虛擬化技術來維護硬件。那么為什么不使用同樣的原則呢?所有的配電設計和相關的彈性軟件工具必須與主要虛擬化供應商的產品相兼容,促進基礎設施的未來發展。這種方法將使數據中心專業人員可以持續地維護系統,從而減少基礎設施陳舊過時的風險。
更好的準備和災難恢復過程可能會阻止許多中斷事件的發生。數據中心行業用戶必須從這些事件中吸取教訓,并采取必要的措施。因此,為了減少數據中心的中斷事件,有效實施電源管理是一個必備措施。