全球公認的Tier標準將數據中心的可用性分為四個等級:
Tier I: 基本容量
Tier II: 冗余容量
Tier III: 可同時維護
Tier IV: 容錯
目前國內存在一些對Tier標準錯誤、過時的認知,對業主和從業人員有著不同程度的誤導。
在閱讀本文之前,請所有從業者務必了解,Uptime Institute是關于Tier標準唯一的制定、解釋及認證機構,Uptime Institute不會設計、建造和操作數據中心以確保中立,從而對數據中心的基礎設施、操作和策略提供中立、客觀、公正的評估。
以下關于Tier標準的理解誤區案例,全部來自Uptime Institute官網內容,作者利用業余時間翻譯整理出來,以供國內用戶和同行學習參考,但最終仍以Uptime Institute官網的英文版本為準。
「理解1」Tier等級與組織業務沒有關系
錯。Tier從創立開始就是基于業務驅動而對其數據中心進行性能評估的基準體系。一個組織通過其業務對風險的容忍度來確定Tier等級。換句話說,一個公司的業務要求決定了其數據中心的Tier等級。如果不根據自身業務的特殊性確定基礎設施的Tier等級,往往會發生濫用Tier等級和企業內部溝通的被短路等問題。
「理解2」Tier IV是最好的
錯。一個企業組織對風險的容忍程度決定了Tier等級。Tier IV并非對所有組織都是最好的答案,當然Tier II也不是。業主應在明確自身的Tier等級之前做盡職調查,如果業務目標沒有明確就來確定Tier等級,會造成不必要的投資。
Tier I和Tier II也是一種常見的戰術方案,在以成本或速度為導向、不必關注生命周期成本和性能的業務需求中經常會采用。當一個組織的營業收入不需要依靠實時交付的產品和服務時,經常會采用Tier I或Tier II等級。一般來說,采用Tier I或Tier II的組織,是那些依照合約不必對系統可用性不足引起的損失負責的業務。
而選擇Tier III和TierIV的數據中心,則是對系統不間斷和長期可用有嚴格要求的業務。在一個Tier III的系統中,任何一個容量組件可以有計劃地從系統中移除,而不會影響關鍵環境或IT進程。Tier IV則更加強悍,任何容量組件和分配路徑可以容忍一次失效、錯誤或計劃外事件,而不影響關鍵業務環境或IT進程。
因此,我們不能說Tier IV比TierII好,而是數據中心的性能和能力應與業務需求相匹配。否則要不就是過度投資,要不就是業務要冒更大的風險。
舉個例子來說,在建造一個Tier II的數據中心前,要知道Tier II并不包含可同時維護的功能,業主應該清晰的知道自己的業務能否容忍一個計劃內的、或與維修相關的停機,以及運維團隊如何協調基于整個數據中心來進行停機維修。
因此,數據中心Tier等級應由其業務目標來確定。
「理解3」組件數量決定Tier等級
錯。Tier認證是對數據中心具體基礎設施的性能做評估,而不是一份檢測清單或類似于食譜的指導手冊。不幸的是,一些一知半解的人直接采用“N”來定義可用性,認為N是滿足負載要求的最小組件數量,而只要并上更多的組件就提高了可用性,例如N+1,N+2,2N或者2(N+1)。但是,增加組件的數量并不能決定或保證獲得更高的Tier等級。因為Tier也包含對分配路徑和其它子系統要素的評估,而不僅僅是考慮“N”。舉例來說,只用N+1的組件數量也可能達到Tier IV的等級。因此,Tier等級是依靠組件在冗余分配路徑中的配置及連接方式來決定的,而不是單純依靠設備的數量。
「理解4」做Tier認證,有設計認證就行了
錯。Tier設計認證(TCDD)只是一個Tier等級認證的第一步。在TCDD時,Uptime Institute的專家對100%完成的設計圖紙進行審查,確保每一個電力、暖通、監控和自動化子系統滿足Tier基礎概念,在整個系統鏈條上不存在任何弱點。設計認證可以認為是數據中心的一個里程碑,確認相應的設計已經達到的目標Tier等級,數據中心業主可以放心開始建設了。
設計認證(TCDD)將設計文檔打包審查,目的是在數據中心得到建造認證(TCCF)之前做臨時性的認可。Uptime Institute尚未對此數據中心的建設做審核,所以我們此時并不能說這個數據中心的建設達到了Tier等級。為強調這一點,Uptime Institute對設計認證設置了失效期。所有在2014年1月之后授予的Tier設計認證都將在兩年之后過期。
在建造認證(TCCF)中,Uptime Institute的專家會做現場訪問,找尋圖紙和安裝的設備是否有差異。專家還將現場觀察測試和驗證,證明系統可以達到Tier要求。原則上講,建造認證才是Tier認證的根本,找到系統中真實存在的盲點和弱點。Uptime Institute的專家表示,幾乎每一個做建造認證的數據中心都會與設計認證的圖紙存在差異,以至于整個系統或部分子系統實際并無法達到Tier的要求。
最近,Uptime Institute設立了Tier運維認證(TierCertification of Operational Sustainability)來評估運維人員的操作和管理關鍵基礎設施的能力。甚至在很多嚴格設計和建造的數據中心中,都因為缺乏成熟的綜合管理和操作程序而發生了中斷事故。因此,只有三個階段都通過認證,數據中心的業主才能真正放心,確保他們的數據中心得到最大程度的保護。
「理解5」Tier等級可預測每年的停機時間(Downtime)
錯。早在2009年,Uptime Institute就從Tier標準中去掉了相關“每年停機時間預測”的參考內容。但即使如此,停機時間Downtime也從來不是定義Tier等級的參數。在Tier Standard: Topology中規定,Tier可用性等級必須對應明確的系統功能結果,即明確的性能目標,例如:具有冗余容量、可同時維護(通常指系統在計劃范圍內,可以移除任何一個容量組件或分配組件而不影響IT系統運行)、或容錯(通常指基礎設施中發生一個計劃外的錯誤而不影響IT系統運行)。但是,即使是一個Tier IV的數據中心,達到了容錯的級別,也可能存在因操作和管理問題造成停機的概率。
現在是有數學統計工具可以預測失效頻率和恢復時間。如果只考慮過去的正常工作時間與總時間的比值,“可用性”就是一個簡單的算術問題了。認為找到一些數字、頻率和中斷持續時間等參數就會推導出所謂的“可用性”結果。但是,還是小心使用這種統計工具為妙。因為在這些數學統計工具中,一般都不會考慮人的行為影響。此外,我們用統計百年不遇颶風來舉例:我們是可以得到一個模糊的颶風發生概率,但同樣有可能一年發生多個百年不遇的颶風。
「理解6」Tier認證只適用于新建數據中心
錯。Uptime Institute已經認證了很多已建成的數據中心。只是,在帶載的情況下做建造認證的測試程序會比較有富有挑戰性。對于一個已經建成的數據中心,最好不要上來直接做設計認證(TCDD),而是先從TGA(Tier GapAnalysis)開始。TGA 將對數據中心設計中的不足之處進行高標準的概括性審查。這會給業主提供足夠的決策依據,是否繼續進行詳細、徹底的設計認證(TCDD)工作。建造認證(TCCF)是在不同的功率負載下進行性能測試,可以采用假負載或實際IT負載,或混合的方式。
「理解7」Tier標準只是美國用的標準
錯。Uptime Institute已經在超過85個國家和地區交付了Tier認證。
并且,Tier標準允許多種方案和各種各樣的配置方法,在設計、建造和運維上最大程度滿足Tier性能需要與當地法規的匹配。時至今日,Tier標準還沒有跟任何地區的建筑法規、立法章程、司法管轄權有沖突。
「理解8」TIA-942是Tier標準的具體指導文件
錯。在2014年,Uptime Institute與美國通信協會(TIA)達成一致,雙方開始明確區分各自的基準體系,以避免行業混淆、明確界定責任。也就是說,TIA關于數據中心的評估體系中已經不被允許再使用“Tier”這個術語。
Tier標準的核心目標在于為數據中心業主通過可用性指標來定義其所擁有的數據中心的性能水平。相比之下,TIA的會員單位專家則是專注在如何部署一個領先的通信網絡。
「理解9」市電來源決定Tier等級
大錯特錯。依據Tier Standard: Topology白皮書,數據中心唯一可靠的電力來源是發電機組。原因在于市電電力往往受制于計劃外的中斷,即使在所謂電網可靠的地方。電力回路、變電站、電網的數量等關于市電對數據中心供電的參數,都不會決定和影響數據中心Tier等級。可以說,Tier標準根本不用考慮市電。大部分取得Tier認證的數據中心把市電作為主要電力來源的原因僅僅是因為市電的經濟性,但是市電根本不會影響Tier等級目標。
「理解10」對于Tier III和Tier IV,發電機必須每時每刻都在運行
錯。Tier標準并不需要發電機每時每刻都在運行。基于成本和管理原因,通常情況數據中心都是以市電作為主供電。但與此同時,發電機組必須正確配置、選型,確保發電機組可以無限制的承擔關鍵負載。因為在Tier標準中,數據中心默認是由發電機組供電。為了達到Tier要求,必須謹慎配置發電機組的容量和配電路徑。