企業網D1Net 9月28日 我們經常討論一個數據中心的優劣,在討論的過程中往往爭論得不可開交。由于大家參照的標準各有不同,引起爭論就不可避免。因為每個人考慮問題的角度不同,所以造成了這樣的現象,這再正常不過了。這也讓我們意識到,究竟如何客觀去評價一個數據中心的好與差,關于數據中心各種指標的專家言論,機構發言,系統論文等都有列及,有時會讓人看得眼花繚亂,更不知道如何去用這些指標去評價一個數據中心。筆者認為,不管數據中心建設的如何好,我們應該關注這個數據中心能為人們提供什么,這個數據中心好不好用,這個數據中心是否業務都是中斷。根據這三個方面,可以概括出來我們關心的東西,而我們關心的地方就應該是數據中心差異的地方。對于一個數據中心,那么我們評價它的優劣標準就是這三個:可靠性,可用性和可維護性。這三個標準都有量化的指標,通過這三個確立的可量化數據中心基礎設施建設衡量指標,也就形成了相應的行業工程基準,使得數據中心基礎設施的設計有了可量化的依據,也使得評估有了可量化的依據。下面就來詳細說一說這三個量化指標。
可靠性(Reliability):是指數據中心在規定環境條件下、規定時間內,完成規定業務的能力。可靠性用MTBF指標來量化。MTBF (Mean Time Between Failure,平均無故障時間),是衡量一個產品的可靠性指標。單位是“小時”,它反映了產品的時間質量。數據中心里的任何一款產品都要有MTBF指標,這個在產品出廠之前就要做完。MTBF也稱為平均故障間隔,MTBF指標是一個比率,是產品故障總數與壽命單位總數之比。通常一款產品我們不可能連續運行幾年,等到產品出現故障,然后算出結果,那么等產品賣出來,產品早就過時了。其實在實際生產過程中,是通過疲勞實驗,以空間換時間,縮短實驗的時間,從而對產品的平均壽命進行預估,得到MTBF指標。對于數據中心,由于數據中心包含有各種各樣的儀器和設備,不同的設備MTBF肯定不同,甚至是相同功能的設備MTBF也有不同,所以對于數據中心的MTBF應該取所有設備MTBF的最小值。在一些數據中心充分考慮了設備的業務備份,從而很大程度上避免設備故障造成數據中心業務中斷,所以MTBF數值越高就可以證明這個數據中心越好。而對于MTBF不高的數據中心,依然可以通過其它數據備份、容錯的方式提高可靠性指標。其中容錯是高可靠性的重要體現,當災害或錯誤發生時,能夠有自動修復、還原的作用,減少數據中心系統宕機率,確保系統不間斷運行。
可維護性(Serviceability):是指系統在規定環境條件下和規定的時間內,完成規定功能的能力,以及完成維護的容易程度。可維護性用MTTR指標來量化。MTTR(Mean Time To Repair,平均可修復時間),是隨機變量恢復時間的期望值。它包括確認失效發生所必需的時間以及維護所需要的時間。MTTR數值越小,說明數據中心故障恢復處理能力越強。數據中心出現各種故障是難免的,而MTTR數值小的數據中心,那么恢復業務的用時就短,帶來的損失就小。比如像淘寶網,如果中斷一小時,就會損失幾十萬條定單交易,不僅給阿里,給用戶和商戶都帶來了損失,三方都受損,所以淘寶網要求全年網絡不得中斷超過兩個小時,這兩個小時包括業務變革、設備軟件升級、故障等造成業務中斷的時間,一旦全年累計中斷時間超過兩個小時,所有數據中心運維人員的年獎金清零,所以阿里數據中心運維團隊承受這巨大的工作壓力。在數據中心進行任何的操作時,都要充分分析MTTR指標。以往的MTTR數值很小,并不能代表未來數據中心不出問題,所以要對未來可能出現的突發事件想好對策。提升數據中心可維護性的最重要一環就是要加強對人的技術提升,只有運維人員充分掌握了數據中心的維護技巧,對數據中心各種業務平臺、設備操作都很熟悉,才能大大縮短故障處理的時間,提升數據中心的MTTR指標。
可用性(Availability):是指系統在使用過程中,可以正常使用的時間與總時間之比。可用性用一個比率指標來量化??捎眯缘谋碚鳛椋篈=MTBF/(MTBF+MTTR),即可用性是由可靠性和可維護性計算得出的。比如:一個數據中心的MTBF是10年,MTTR是2小時,那么可用性指標A=10*365*24/(10*365*24+2)=0.9999772=99.998%。在數據中心行業里,通過可用性指標的9數字的多少來表示數據中心的可用性高低。表1列了關于可用性等級的定義:
9的個數 |
可用性百分比 |
每年總停機時間 |
2 |
99% |
3天,15小時 |
3 |
99.9% |
8小時,45分鐘 |
4 |
99.99% |
52分鐘,34秒 |
5 |
99.999% |
5分鐘,15秒 |
表1:可用性指標
大家通常用五個九,即99.999%,來衡量數據中心的可用性,只有達到五個九的數據中心才算是高可用性的數據中心,這意味著一個數據中心全年業務中斷不得超過五分鐘,可用性的高低一定程度上取決于可靠性和可維護性。
通過可靠性、可維護性以及可用性這三個指標基本可以對一個數據中心有個整體綜合評價,通過三個指標的對比也可以分出數據中心的好與差,是評價一個數據中心的根本。正確運用這三大指標來指導數據中心工作,將有助于提升數據中心的業務處理能力,增加效益,減少故障帶來的損失。數據中心也不能一味地追求這三點,提升這三大指標意味著數據中心要投入大量的資金與人力,包括軟件、硬件、人力和培訓等都需要投入。數據中心需要綜合衡量這些花費,對比一下意外宕機造成的損失和投入的資金,看目前的數據中心主要顧及哪一方面,不要單獨追求指標的三高。如果這樣,雖然你的數據中心常年無故障,但是數據中心卻因為高額的投入而陷入虧損,那就得不償失了。
數據中心必須可靠!可用!可維護!