越來越多數據中心行業從業人員意識到一個殘酷的現實:人為操作失誤是造成數據中心宕機的頭號因素,而非糟糕的設計或施工。越來越多的人開始關注數據中心的運營與維護。設計、建造一個完善的數據中心只是數據中心可持續運行的第一步,公司企業、政府部門等數據中心的業主必須能夠根據其數據中心風險特性來準確描繪運維需求并設計相應的運維規劃。要做到這一點并不容易,尤其相關的經驗和技能對于那些核心業務并非數據中心的公司來說是比較匱乏的。本文將討論數據中心運維當中應當從哪些方面入手,以幫助大家建立合理的運維體系,確保數據中心的可持續與可靠運行。
運維人員必須參與數據中心設計
如果數據中心設計的人不是最終使用的人,或者在設計階段使用者的意見沒有被充分咨詢或征求,很容易造成后期使用過程中額外的修改和改動。實際上,數據中心運維人員在實際運維中經常遭遇這樣的情景:使用中發現配電柜沒有預留足夠的空開位置,造成必要的維護工序無法完成;電池柜的設計安裝未預留服務空間;建筑結構設計使得通風裝置無法提供所需要的通風量,等等。如果在設計階段就包括運營評估的環節,那這些問題就可以盡可能地避免。
最有效、最省錢、最高效的數據中心應當采用生命周期總擁有成本(TCO)的方式來規劃管理,以平衡投資和運營成本,進而滿足業務需求。其中很重要的一步就是根據公司具體業務需求制定設計指標和運營目標。這樣,建造的數據中心目的性更強。
不能僅僅依賴數據中心的設計
許多公司認為高級別的冗余設計可以彌補運維預算的不足,但多方的研究證明,關鍵任務環境下,人為錯誤是宕機的首要因素。為什么人們還是會忽略運維呢?主要是因為硬件的設計建設是看得見摸得著的,而運營的經驗相對來說需要更多的時間積累。所以我們時常看到公司花費大量投資進行硬件建設,而忽略運營規劃所需的預算。很多缺乏經驗的用戶不知從何下手時,往往會把數據中心的運維交給不具備專業知識的第三方管理。比如說,很多數據中心的運維交由辦公室建筑維護類公司,而這類公司往往并不具備操作和管理關鍵設施的技能。最大的區別在于,辦公室環境的維護修復是可以離線進行的,而關鍵設施環境下的維護是以盡可能減少宕機時間為最高信條。
所以無論是基礎設施管理還是數據中心運營團隊的架構必須圍繞著一個目標:最大化正常運行時間。具體而言,與維護傳統設施環境相比,維護關鍵設施環境有特殊的需求。例如,要求連續運營,不許宕機,要求實現冗余系統,發生故障時能主動切換,等等。無疑,滿足這些特殊需求的關鍵在于用正確的方法建立運營體系。
重視人才,重視培訓
數據中心環境下,低估人員構成是有風險的,有可能造成緊急情況下無法恢復正常運行。合理安排人員配置,以優化緊急狀況響應、設備維護和供應商管理。同樣,招聘并保留合適的人員至關重要。招聘具備專業技能的合格員工不是那么容易的,招聘時要通過嚴格的篩選過程,來驗證應聘人員的技術、管理和溝通能力,因為這些技能對數據中心關鍵設施的運營必不可少。當然,找到合適的人選只是第一步。
招募了優秀人才還要能留住他們。過高的人員流失比例對數據中心里的大多數運營項目造成風險。提供完善的培訓和支持,營造良好的職業發展空間可以有效地保留員工。經過系統培訓的員工將了解如何安全地操作和維護系統,并知道在出現問題時如何處理。
很多情況下,設備安裝調試完成后,設備供應商或總包商會提供相關設備的培訓,但這樣的培訓往往針對具體的設備而很少全面考慮數據中心的整體運營。而接受培訓的員工又“言傳身教”,“口口相傳”地培訓其他人,這樣的培訓方式很容易使一些不正確的方法和流程成為標準化的東西。
因此,我們需要的是一套完整的培訓和考核體系,根據掌握的技能將人員按不同資質資格劃分,同時提高不同層次人員的業務水準。通常情況下,業務人員水準可分為以下幾個層次:
· 在指導監督下的基本操作;
· 進行日常操作及維護;
· 進行高級操作及維護;
· 專業領域專家
糟糕的培訓往往是由于沒有花足夠的時間和經費來開發培訓規劃。所謂“磨刀不誤砍柴工”,很多IT經理們忽略了這樣一個簡單的道理。良好的培訓可以帶來正常工作時間的增加、維護成本的節約,以及人員流失的降低,所有這些收益都會遠遠抵消開發培訓規劃的成本和努力。
持續不斷地演練
任何緊急狀況下,數據中心的操作人員都應該象訓練有素的救火隊員一樣從容應對。要做到這一點,關鍵是持續不斷地安排專門時間演練。而且這樣的演練需要數據中心所有相關人士的參與,從而令每個人都明確在緊急狀況發生時應該做什么。