隨著大量數據應用和業務量的激增,對大多數企業來說數據中心安全運行至關重要。然而,大多數企業低估了維護數據中心安全運行的重要性。據統計,數據中心的停機一分鐘平均損失將超過8800美元。
那么,數據中心停機的原因是什么?又該如何避免這么此類事件發生呢?
以下是數據中心停機的一些最主要的原因:
UPS系統故障。如果企業投資建設數據中心,就必然要構建可靠的UPS供電系統,雖然其名為“不間斷”,但并不能保證百分之百的可靠性,無論采用什么類型的UPS,仍然有可能發生短時間(10秒以內)或長時間(超過10秒)故障。這些故障可能是由一些潛在的問題引起的,例如UPS本身具有固有的缺陷,其質量或可靠性會隨著時間的推移逐漸下降,另外蓄電池組失效,以及使用和維護不當也是引起UPS系統故障的原因,當然,雷電等自然災害也是引起其故障的一個原因。
網絡犯罪。根據波洛蒙研究所的一項研究,網絡犯罪是導致數據中心停機或業務中斷的一個日益增長的原因,2010年網絡犯罪引起數據中心停機只占所有事件的2%,如今已上升至22%。如果一個網絡犯罪分子找到一種遠程訪問企業數據中心的方式,那么他就可能很容易挾持數據中心的數據和操作,或者完全拒絕數據中心的正常訪問和操作。
IT設備自身故障。企業的服務器本身故障也是停機時間的主要原因。如果維護不當,或者電源連接不可靠,那么數據中心就有可能因此發生故障。
顯然,這些停機原因并不是不受企業的控制。正如業界專家所說,預防性維護和主動維護可以避免大部分的停機。主動維護應注重以下三個方面:
(1)減少人為錯誤。首先,企業需要減少因人為錯誤引起的設備風險。如果企業的IT人員沒有對如何維護設備進行適當的培訓,或者不知道如何識別潛在問題或對其及時的做出反應,那么當他們面對故障時將無法采取必要措施。此外,大多數網絡犯罪或因沒有采用強大的密碼,或是因為釣魚網絡而被侵入,最終都歸因于某種人為錯誤。如果企業希望盡可能長時間地保持數據中心的全面運行,對其員工進行更好的培訓是必要的措施。
(2)定期檢查維護。服務器是復雜的機器,需要得到良好維護,如果企業希望最大限度地延長其生命周期,則需要定期監控其性能,檢查內部風扇和電源連接等,并定期更換零件。持續的維護雖然會產生額外的費用,但是與因停機造成的損失相比要低得多。
(3)制定預防策略。最后,企業可以通過制定不同的風險預防策略來降低風險。例如,通過更好地保護物理服務器,并在不同的位置進行鏡像備份來減輕自然災害的風險;通過進行主動的安全防護,可以減少網絡犯罪的風險;還可以通過使用優質的電源設備,降低遭受停電的風險。
減少幾分鐘的數據中心停機時間,可以節省數萬美元的業務成本,甚至避免出現難以挽回的損失。企業需要花費時間和精力構建一套更好的系統來主動管理硬件以及公司員工。采取這樣的策略之后,企業將會受益無窮。