前段時間,由于數據中心電力故障,微博遭遇了“黑色一小時”;就在微博還沒有從陰影中走出來的時候,餓了么機房也跟著出現了事故;再加上這段時間的先是熱浪沖擊,后來雷電恐嚇,暴雨洗禮,一時間關于數據中心宕機的話題成為了圈內朋友們熱烈討論的話題。其中,討論最多的就是為什么在配置雙路市電并配備UPS系統的情況下還會因電力故障宕機,對此中國IDC圈采訪了數據中心領域資深專家段旭。
既然標榜雙路市電+UPS,為何還會因停電宕機?
數據中心是信息整合的核心區域,必須要有充足的電力電源保障,真正的雙路供電系統,是從兩個獨立的變電站引入的兩路電源,而兩個變電站同時停電的概率極其小,所以數據中心才要求雙路供電。雙路市電是兩路的不同的市電,當其中一路出現問題,另一路就成了“保險”。但是在實際建設過程中,很多數據中心并沒有真正的雙路供電。
段旭說,“這其實是三個問題。首先,需要我們認清一個問題:雙路市電是否必要?目前國內以BAT為主的互聯網數據中心在推動單路市電+UPS的方式,但是客觀地說,BAT的做法有其業務需要的特殊性,同時,也依托于自身強有力的運維保障,才能做此想。除此之外,縱觀國內外相關數據中心標準,均對高等級數據中心有雙路市電的要求,并且此處所講的雙路市電,是來自不同變電站的兩路市電,并不是來自同一變電站的”偽雙路“。這樣才能盡可能地保證在遇到緊急情況下,市電供電不發生中斷。
其次,有人可能會說既然有應急發電系統和UPS系統,即便市電中斷了也沒有太大的問題吧?其實不然,UPS后備電池的放電時間很短,最多15分鐘。在應急處置情況下,15分鐘轉瞬即逝,堪稱黃金時間,在這15分鐘里,要求運維團隊發現故障、到達現場、緊急處置后進行切換,一旦一個環節出現問題,就可能導致停電宕機。
最后,也是我想認真地跟數據中心管理者說的,數據中心是個復雜的建筑綜合體,平衡合規性、經濟性、可用性之間的關系之后,認真地進行規劃、設計、建設、運營,這樣,才能真正持有并平穩運營一座可用性及安全性都不錯的數據中心。“
70%的數據中心故障都是人為引起的?
對于這個疑問段旭表示,70%的數據中心故障都是人為引起的“這句話來自Uptime,這是對數據中心運維操作的合規性進行警示。以我之前的經驗和教訓來看,常見的人為故障可能發生在以下幾點:第一是運維操作人員憑”經驗“和”手感“走天下,認為這套操作流程我天天干,喪失了對工作和操作說明最起碼的敬畏之心。這種懈怠的結果,就是發生操作失誤,導致嚴重的后果。因此,不斷更新操作說明文檔,并嚴格按照操作程序進行操作,是運維管理者需要注意的問題。
第二是安全管控的缺失,缺乏對內和對外的安全管控策略和相關規定。
第三是標識管理的混亂,數據中心內應對所有設備進行標識管理,并確保運維操作人員在執行操作前進行核對。
應當說,為了盡量避免運維操作失誤,有三個關鍵詞,尤以最后一個最為重要。這三個關鍵詞分別是:合規、流程化、敬畏之心。
如何多方面綜合評判一家數據中心的水平?
段旭說:“評價一家數據中心的水平,應當從三個方面入手:”硬件“、”軟件“、增值服務。
首先說硬件,所謂的硬件,是基礎設施的水平,包括可用性水平、可靠性水平、安全性水平、能效利用水平。國內外現在已經有非常完善的各類國際性標準、國家標準和行業標準,對基礎設施水平進行約定,此處不再贅述。
其次是軟件,所謂的軟件,是運維服務的水平,包括運維服務是否高效、安全、守規章、依流程。運維服務水平,既考驗數據中心運維管理體系是否合理、有效;又考驗運維服務團隊的能力與經驗。
再次是增值服務,所謂的增值服務,是針對不同的服務對象,所提供的有針對性的服務。舉例來說,對互聯網用戶,可能是如何滿足并保障其瞬時計算能力的需求、防Ddos攻擊要求;對金融用戶,可能是如何滿足安全性的要求。“
運營多年的“中老年”數據中心,可能面臨哪些問題?
段旭表示,目前,以北京為例,確實是有很多數據中心已經進入“中老年期”,對于這一類數據中心而言,可能存在以下兩方面問題:其一,是當初的規劃設計已經不滿足目前市場環境需求的問題。顯而易見的是,目前市場環境所需要的數據中心,應當是單機柜供電密度相對更高、能效利用水平更好的數據中心。有個很有意思的現象:最近這一年來,我所接觸到的數據中心資源使用需求,都會要求單機柜供電密度在4kW或以上。這一點,很多“中老年”數據中心就輸在了起跑線上。同時,能效利用水平的較低會導致企業經營成本的升高。
其二,是設備的折舊問題。這又分兩個方面講:一是正常折舊,這種情況下,按照計劃更換設備就好了;二是因為運維管理的不足,導致設備提前折舊,這種情況并不鮮見,這種情況下,需要內外部評估檢測,既檢測設備使用情況,更評估運維水平,才能有的放矢。
對于“中老年”數據中心,應當有針對性地進行評估檢測,并據此提出有效的改進計劃,進行改造或檢修整改。