過去五年內,我國數據中心的數量劇增,產業規模不斷擴大,預計2018年我國IDC產業規模將接近1400億元,在未來中國數據中心的產業將繼續蓬勃發展。但近年來,數據中心因為運維水平不足引起的宕機事故頻發,越來越多的用戶和服務商開始意識到數據中心運維的重要性,并且已經將運維水平逐步納入到重要的服務指標中。未來隨著數據中心基礎設施和網絡能力的提升,服務商運維能力也將成為運營的門檻,具備高品質服務能力的服務商將獲得更多客戶的青睞。
數據中心故障頻發
2017年6月微博數據中心因電力原因故障,造成了微博“黑色一小時”,緊接著餓了么機房也出現故障,導致商家無法接單,客戶無法取餐。2017年2月28日晚8點39分,百度移動端搜索發生故障,搜索請求無法顯示結果,至晚9點21分恢復,歷時42分鐘。亞馬遜的云服務出現過持續數小時故障,故障起因是AWS S3(云存儲)團隊在進行調試時輸入了一條錯誤指令,本應該將少部分的S3計費流程服務器移除,可是最終意外地移去了大量的服務器,2016年1月18日Microsoft Office 365的用戶的電子郵件賬戶出現問題,微軟將故障歸咎于一次錯誤的軟件更新,但是其初次修復的嘗試并沒有解決問題,在最初的故障出現五天之后,第二次電子郵件故障又爆發了,這一次激怒了很多用戶。2016年4月22日11時28分,某數據中心服務商位于北京亦莊的數據中心供電中斷,在該機房托管的多家金融機構和73家村鎮銀行的所有設備宕機,服務全部中斷長達7小時以上!
根源在于運維管理
對于這些數據中心機房故障,中國信息通信研究院專家對事故原因進行總結說,故障多發的原因關鍵還是在運維管理上,所謂“三分技術,七分管理”,數據中心的故障大多源自于人禍。運行中的數據中心,應減少人為參與的機會,要對人為行為進行充分的管理和評估。
大量的事實表明,數據中心提供的服務品質優劣主要是運維管理水平決定的。加強運維人員的管理,提升運維人員的技能水平,才能減少人為犯錯的機會,避免產生人禍。數據中心是一個非常復雜的IT系統,難免會出現這樣那樣的問題,從而引發故障,若能夠通過有效管理減少其中人禍部分的因素,將能有效提升數據中心的運行穩定性。
服務商宣傳未必靠譜
頻繁出現的數據中心故障、宕機事故說明,某些數據中心的基礎設施可靠性,并不像他們對外宣傳的那樣完美。而且,很多用戶在選擇托管服務的時候認真考察過服務商的服務水平,但是一旦選定之后很少會再去關注他們的運營質量。尤其是很多關鍵業務托管上云之后,更是如此。這也不奇怪,業務在云之間進行遷移的風險和成本極高,所以一旦完成遷移上線,幾乎很少會有用戶再去監督服務商的服務質量。反正也遷不出來,即使發現他們有些不合規也只能認了。這導致了服務商的服務質量得不到監督。長此以往,就很有可能出現服務質量下降的情況。服務商在發生災難時的損失和客戶在發生災難時的損失往往不在同一個層次上,這也使得服務商沒有足夠的意愿去保證服務水平。
現在對于數據中心服務商來說,如何增強自身的市場競爭力,如何留住現有客戶并發展新的客戶,如何規避運維過程中的各類風險,為客戶提供更加優質的服務是主要思考的問題。而如何選擇優質的服務商,如何評估一個數據中心的服務能力,如何規避SLA陷阱,如何審查服務商的SLA執行力度,保障自身的合法權益是客戶在選擇服務商時經常面臨的問題。
評估揭示真實水平
為了解決這些問題,給數據中心和商家雙方都吃一顆"定心丸",數據中心聯盟在工業和信息化部的指導下完成了數據中心服務能力評價標準的編撰工作。數據中心服務能力評價標準是從用戶視角出發的評估體系,所有評分細則都來自于IDC用戶及數據中心行業專家。除服務能力評估外,聯盟還開展數據中心可靠性評估和綠色數據中心評估。
數據中心可靠性評估:是目前行業一套統一、權威的IDC基礎設施可靠性評價體系,一方面使用戶在選擇機房時有科學評判依據,用戶權益能夠得到保障;另一方面也使企業具有較高公信力的宣傳推廣手段,在IDC運營企業之間建立優勝劣汰的良性競爭機制。
綠色數據中心評估:和國際組織TGG(綠色網格)聯合制定標準,由開放數據中心委員會提供技術支持并開展評估工作,現已成為國內最具權威性的數據中心綠色認證。
促進IDC企業升級
獲得評估之后能為服務商帶來什么好處?第一,政策方面,可以有機會成為未來IDC行業相關優惠政策的受益者。隨著政府對我國數據中心產業相關規定的細化,數據中心服務能力必將成為重要的考量指標。第二,在服務能力提升方面可以得到更多的支持,通過認證能幫助企業規范服務能力,提升服務質量,增加未來市場的核心競爭力,獲得更有利的市場地位,同時在蛹化的招投標文件中也可以獲得更有利的條款。第三,能擴大市場宣傳及品牌形象,達到3A級以上可以在產業大會上進行公開授牌儀式,并會獲得免費推廣機會。同時也會作為成功案例,作為政府報告和國際交流活動的宣傳重點。