數據中心租戶在簽署數據中心托管合同后,如果感到后悔和遺憾那將是很痛苦的。因為管理不善的數據中心將遭遇隨機停機或中斷,這會影響租戶的日常業務交互運行,影響其在客戶中的聲譽,同時有可能損壞租戶昂貴的設備,并耗費租戶的更多成本。而移動數據中心是勞動密集型的類型,因此也是不穩定的和昂貴的。
如何在混亂中拯救自己的業務,并作出正確的選擇,成為用戶頭疼的問題。但如何進行選擇呢?在每個數據中心的設施中,都聲稱擁有一個專家團隊,具有廣泛的安全措施,一致性的可用性,高密度的計算能力,以及防范自然災害的能力。這似乎是不可能區分數據中心的優劣。
因此,在企業作出選擇之前,應該考慮三個主要類別的標準:運營管理,設備和基礎設施,以及商業信譽。每個類別都列出問題,將會挖掘出讓人遺憾重要的細節,區分數據中心的不同,可以幫助企業的業務蓬勃發展。
一 運營管理
(1)難道數據中心可以隱藏在可以顯示更好的歷史,或避免違反服務級別協議(SLA)而遭到經濟處罰的維護窗口背后嗎?
了解數據中心如何以及為什么使用維護窗口,可以經常發現潛在的問題、關鍵的系統設計、容量管理,以及運營能力。為了他們的可用性顯得更加一致或者避免SLA的處罰,一些數據中心過度使用或操縱其維護窗口。而停機時間一般是最終用戶的停機時間,無論是計劃或計劃外的維護窗口。在此,可以回顧過去五年的常規計劃,以及緊急或計劃外維護窗口的報告。使用什么類型的維護窗口?可以了解一個或兩個(如果冗余電路或2N冗余)的電路的情況,以確保服務級別協議不會受到影響。另外,維護窗口為客戶停機的頻率是多少?是否有任何導致客戶計劃外停機的維護窗口?維護窗口是否有排除數據中心的持續關鍵系統可用性和正常運行時間的歷史?對這些問題的回答將有助于揭示企業數據中心的維護窗口程序,以及它們如何影響用戶業務的內幕。
(2)主要專長是數據中心托管?
要注意的是,除了提供主機托管服務以外,數據中心提供商還提供了IT管理服務和通信服務。起初,數據中心供應商提供多種服務聽起來很方便,但是當數據中心試圖將一切提供給大家時,他們所提供給客戶的服務質量會受到影響。數據中心托管提供商其主要重點是提供數據中心基礎設施服務工作,為客戶提供高質量和便利性的服務。數據中心提供商一般不提供自己的競爭性服務,以便吸引最優秀的服務供應商入駐,并與這些公司共同在一個數據中心提供服務,其結果成為一種購物商場,其中用戶可以在多個供應商進行選擇,可以獲得他們所需要的有競爭力的價格。
(3)數據中心如何減少人為錯誤?
人為錯誤仍然是影響數據中心連續正常運行的最主要的因素。相反,人們普遍認為人為錯誤是不可避免的,但可以通過規劃和設計來有所緩解,而有效減少或消除人為錯誤的唯一方法是正確的管理、正確運營策略,以及良好操作心態的組合。培養專注于完成任務的工作人員,并將這種做法推廣到數據中心的整個組織,可以創造一個有利于持續運行環境。在任何數據中心的運作過程中,如果外包的某一部分很難操作,可以詢問是否將這個操作和維護活動外包給供應商或第三方。如果是這樣的話,其所有權和責任將會喪失,服務質量也將受到影響。數據中心運營團隊應該自己處理解決,而不能將其外包,但是如果自己解決的話,必須要求自己的團隊有一定的技能、經驗和資歷。因此,團隊的每個成員都應該不斷地接受培訓,特別是減少或消除錯誤,并確保在服務交付的過程和程序具有更高水平。另外,還應該具備用于文檔的所有操作過程控制和使用、驗證、修訂和批準的業務策略和措施。這些程序應當詳細說明一切,包括清潔標準、變更管理和控制、風險緩解、服務請求和問題的通知,上報和解決等。
在了解應提供數據中心的運營策略和心態之后,可以簡化運行團隊的判斷措施,以減少人為錯誤。
二 設備和基礎設施
(1)數據中心是否具有維護和生命周期策略?
應該做好設備的管理工作。詢問數據中心設備是如何選擇、委托、鑒定、測試和維護?是否建立了其生命周期戰略?是否具備預防和預測性維護策略?他們是否能夠結合,進行有意義的測試和趨勢分析?所有的設備和數據中心是否作為一個整體進行檢查?
(2)是否擁有有效管理數據中心日常操作的DCIM?
數據中心是否有一個全面的數據中心基礎設施管理(DCIM)系統,可以連續準確地監測和收集所有關鍵和重要系統中的數據?關鍵系統基礎設施是如何規劃和管理的?全面的DCIM對于一個高度可靠的數據中心來說至關重要,因為其可以不斷地監視所有關鍵系統。它允許運營團隊意識到不斷變化的條件,以及具體參數趨勢,以及積極的管理能力。通過采用一個有效的DCIM,運營商可以做出明智的決策,以保持數據中心的平穩和持續運行。配備多個DCIM可以了解數據中心的變化,但每個DCIM都應該有幾個主要功能。DCIM應該監控和管理數據中心各個組件和系統容量。它應該有閾值報警和自動報警、自動升級、儀表板視圖、集成面板日程管理和預測性維護和趨勢分析的功能,并應該實時顯示能源使用效率(PUE),分支回路電源的使用,以及交付的溫濕度測量。因此,運營團隊需要一個提供這些重要的數據點和功能的DCIM。
(3)當前使用的機械和電氣系統的容量如何?
而在數據中心中,單個組件和系統的容量有時不能被有效地測量或管理。一些數據中心會消耗他們的冗余能力,當設備可能中斷或連鎖故障時,卻無法使用冗余或故障轉移。數據中心運營團隊需要了解在關鍵的電氣和冷卻系統的所有能力組件上的負載,熟悉數據中心的配電系統和機械(冷卻)的配電系統,并有效管理這些系統,了解為客戶分配冷卻和電力的政策和流程是什么。如果數據中心的負載已經超過了在不間斷供電(UPS)系統90%的容量,數據中心將沒有足夠的能力提供給用戶業務,并存在連鎖故障的風險。因此,在預選擇過程中探索數據中心的容量管理和當前可用的能力,避免在遷移或移動業務時,數據中心供應商不能滿足用戶業務的增長需求的風驗。
(4)數據中心的位置是否受到自然災害的威脅?數據中心采取了哪些措施以減輕災害的影響?
雖然并沒有數據中心不受自然災害的影響,但通過選址可以得到緩解或消除某些風險。通常人們避免將數據中心全都共置在一個地區,或者是周期性地暴露于自然災害的地區,即使該地是企業便于管理和經營的地理位置。例如,美國中西部地區的數據中心就很容易遭受龍卷風的襲擊,而沿海的大多數數據中心易受颶風、地震和洪水的襲擾。如果有這個可能,這些數據中心就會有一定的遭受地震概率,那么這些數據中心是否已經制定一些應對措施?那些位于平原的數據中心是否能應對100到500年一遇的洪水?這些數據中心的位置是在美國聯邦應急管理局預測最大洪水的水位之上嗎?數據中心提供商是否采取了應對所有自然災害的預防措施?以及是否具備保持數據中心正常運行時間的策略和措施?
三 商業信譽
(1)有沒有一種方法為客戶實時查看持續服務水平和/或服務級別協議(SLA)?
通常情況下,數據中心提供商為客戶提供一定水平的服務。一般要求數據中心的方法報告遵守服務級別協議(SLA)。要求數據中心提供商提供有透明度和可視性的服務的參數。這對于實現約定的服務水平應該是一個必要條件。
(2)數據中心獲得了任何認證嗎?
而那些獲得許多認證證書的數據中心都會有自己的優點和一些缺點,但他們仍然具有一些意義的,以幫助數據中心運營商感受到設施和服務的重要性。人們通常會詢問數據中心是否通過認證審核,并定期要求查看認證證明以及保密協議下的審計準則。而這些提供的服務的質量、可靠性和安全性分析的信息是非常寶貴的
(3)數據中心和供應商的財政健全狀況和承諾如何?
運行數據中心的成本是很昂貴的。數據中心提供商要確保該數據中心設施有良好的資金支持,并不能僅僅依靠幾個大租戶。這些租戶隨時都可以中止合同,并導致數據中心關閉或提供商至少在成本上作出削減,這將影響到服務交付的質量。因此,需要審查數據中心供應商的財務報告,了解當前或未來的商業計劃,分析托管提供商租賃或自己的物理結構、建筑和房地產的情況,以及是否數據中心提供商是否有出賣自己的數據中心的計劃?如果數據中心提供商的資產負債表、損益表或未來的努力顯得可疑的話,那么就應該早些應對和打算。
(4)數據中心提供商目前提供的100%連續關鍵系統的可用性和正常運行時間是多少?
數據中心的可用性和正常運行時間不會僅僅基于關鍵系統設計和冗余設施。數據中心的設計固然很重要,但它不能防止人為錯誤和管理不善。重點關注的是數據中心的設計、管理和運營的結果。目前數據中心供應商提供的100%電氣和機械(冷卻)的關鍵系統的可用性時間長度是多少?而數據中心連續關鍵系統的可用性和正常運行時間,對此數據中心提供商的定義有所不同,還要了解在其正常運行時間的包括或排除維修窗口歷史。在數據中心的運營過程中,有哪些設備經歷了任何計劃或計劃外停機事件?如果有任何意外停機事件,請詢問客戶是否被通知,以及是否提供了一個確定停機事件根本原因的詳細和準確的報告。還應提供解決方案在行動報告和未來的減災計劃的細節。還要了解數據中心的連續關鍵系統的正常運行時間記錄的信息,以了解用戶的數據中心潛在合作伙伴的重要信息,結果將不言自明。
結語
解決了數據中心在運營、管理、設備、基礎設施,以及商業信譽方面的問題,這樣數據中心將是一個有益的業務伙伴。當一個數據中心可以安全可靠地完成工作時,企業的數據和應用程序將更加安全,并且比以往任何時候都更加容易獲得用戶信任。一旦相信已經找到了一個可以提供高可靠性,降低風險,并提供持續正常運行時間的優質數據中心時,那么就可以放心與數據中心提供商在合同上簽字了。