新時代的數據中心
數據中心在國內興起只有10多年的時間,但明顯經歷了幾個階段:第一階段(-2005)是普通機房階段,有UPS供電,有空調制冷,放上IT設備就算一個數據中心了;第二階段(2005-10),隨單機柜IT設備功率增加,強調了氣流組織、地板下送風,雙路UPS供電;第三階段(2010-15),進一步優化氣流組織,冷/熱通道封閉、模塊化機房、Tier 3/4等級安全性;第四階段(2015-),互聯網應用劇增、大數據、AI、云服務,導致數據中心規模迅速擴大和集中,數萬機柜的超大型數據中心成為主流,能效的追求和創新應用發展到極致,自然冷、風墻、水下數據中心、液冷服務器等新技術不斷被創造和應用。
當前數據中心呈現如下特征:
1、 規模超大,5000機柜以上,有的規劃已經超過10萬機柜;以前的萬平米數據中心都不好意思再說自己是大數據中心了。
2、 用電量超大,單個110/220KV變電站已經不能滿足供電容量,需從多個變電站供電。并且供電電壓提升,10KV供電直接到機樓。一個數據中心園區有多個變電站。
3、 用水量大,冷水機組的應用,導致冷卻水蒸發量大,有的每月耗水量超過30萬噸。建筑物內外管網密布。
4、 設施層面的新技術應用多,自然冷、風墻、液冷、山洞、水下、集裝箱…
運維新挑戰
針對上述新時代數據中心的特征,設施運維管理面臨的挑戰有:
1、 規模超大帶來的人員、組織和效率的變化。以前萬平米以內的數據中心,人工巡檢一次2-4小時,現在數十萬平米,人工巡檢一次一整天都不夠,勢必需要劃分更小的責任區域。需要更多的運維人員,組織的龐大增加了管理的難度,效率的下降。由于運維人員分布在不同的區域,互相交流減少、易閉塞,情緒變壞。
2、 電壓等級提高,安全風險增加。以往運維人員接觸的是低壓(低于1000V),現在供電設備、發電機、冷機都是高壓供電,維護安全要求提升,但人員的安全意識、工作習慣、個人保護、安全教育未必全跟上。
3、 新應用多,技術能力不足。各種層出不窮的新技術和新應用,對運維人員的培訓相對較少,實際操作和維護實踐不足,技術積累不夠,都會影響發生問題時的處置效果。
4、 運維人才供應不足,面對迅速膨脹的超大數據中心,動輒數百人的運維人員需求,市場根本無法提供和滿足。但基于上述的原因,運維人才的培訓和成長周期比較長,以致大家互相挖角,爭搶有限的優秀運維人才,導致運維成本增加。
5、 規模的集中,導致風險集中,事故影響增加。前些天亞馬遜的數據中心事故,導致了全球大面積的服務和應用中斷,損失慘重。因此運維管理的壓力超前。
當然,挑戰遠不止這些,我們運維人該如何應對?數據中心設施論壇(3.28 北京)將邀請業界專家、行業大咖、知名廠商共同探討和交流分享。歡迎您的加入!