數據中心的重要性在于支持企業應用不間斷運行。但近年來,世界各地的數據中心頻頻爆發安全故障事件,在一次次沖擊著企業用戶的心理防線。這也讓我們產生一些思考,究竟該如何客觀評判一個數據中心的優劣?
國內外數據中心的規范標準按照機房的性質和重要性將數據中心劃分為以下不同的級別:
注:GB50174和TIA942并沒有完全對應關系,本表僅為不同級別數據中心的對比。
這種級別的劃分歸根結底還是在可靠性和可用性上的劃分,等級越高要求其可靠性和可用性就越高,其年平均故障時間就越短。因此我們評判數據中心優劣的標準可歸結為:可靠性和可用性。
可靠性(Reliability)是一個概率值,指某個設備或系統在一個指定的時間內能夠無故障的持續穩定運行的可能性。人們通常用MTBF(Mean Time Between Failure,平均無故障時間)這一指標來量化它。MTBF反映了產品的時間質量。可靠性是一個隨時間變化的函數,時間越長,可靠性越低。其計算公式為:R(t)=e-λt,其中,λ為故障率,λ=1/MTBF.
可見,可靠性是一個與時間相關的標準,時間越長,可靠性越低。但是如果初始系統設計的較優秀,系統在更長時間內正常運行的概率就越高。由于數據中心中包含有各種各樣的儀器和設備,不同的設備MTBF不盡相同,甚至是相同功能的設備MTBF也有所不同,所以對于數據中心的MTBF應該取所有設備MTBF的最小值。一些數據中心充分考慮了設備的業務備份,從而很大程度上避免了因設備故障造成業務中斷的情況,所以MTBF的數值越高,就可以證明這個數據中心越好。對于MTBF不高的數據中心,依然可以通過其它數據備份、容錯的方式提高其可靠性指標。其中容錯是高可靠性的重要體現,當災害或錯誤發生時,能夠有自動修復和還原的作用,減少數據中心系統宕機率,確保系統的不間斷運行。
可維護性(Serviceability)是指系統在規定環境條件下和規定的時間內,完成規定功能的能力,以及完成維護的容易程度。可維護性用MTTR指標來量化。MTTR(MeanTime To Repair,平均故障維修時間)是隨機變量恢復時間的期望值,它包括確認失效發生所必需的時間以及維護所需要的時間。MTTR數值越小,說明數據中心故障恢復處理能力越強。數據中心出現各種故障是難免的,而MTTR數值越小的數據中心恢復業務的用時就越短,帶來的損失也越小。
可用性(Availability)是指系統在使用過程中可以正常使用的時間與總時間之比,它是一個比率指標,其計算公式是A=MTBF/(MTBF+MTTR)。可用性可以用來表示某一運行中的可修復設備或系統在這段時間內能按其功能穩定運行的能力。例如:一個數據中心的MTBF是10年,MTTR是1小時,那么可用性指標A=10*365*24/(10*365*24+1)=0.9999772=99.9989%.在數據中心行業里,通過可用性指標的9數字的多少來表示數據中心可用性的高低。但可用性并不會特指故障發生的頻率,對于相同的可用性,有以下數據:
通過可靠性和可用性這兩個指標基本可以對一個數據中心有個整體綜合評價,通過兩個指標的對比也可以分出數據中心的好與差,是評價一個數據中心的根本。這使得數據中心基礎設施的設計有了可量化的依據,也使得評估有了可量化的依據。