越來越多數據中心行業從業人員意識到一個殘酷的現實:人為操作失誤是造成數據中心宕機的頭號因素,而非糟糕的設計或施工。越來越多的人開始關注數據中心的運營與維護。設計、建造一個完善的數據中心只是數據中心可持續運行的第一步,公司企業、政府部門等數據中心的業主必須能夠根據其數據中心風險特性來準確描繪運維需求并設計相應的運維規劃。要做到這一點并不容易,尤其相關的經驗和技能對于那些核心業務并非數據中心的公司來說是比較匱乏的。本文將討論數據中心運維當中應當從哪些方面入手,以幫助大家建立合理的運維體系,確保數據中心的可持續與可靠運行。
運維人員必須參與數據中心設計
如果數據中心設計的人不是最終使用的人,或者在設計階段使用者的意見沒有被充分咨詢或征求,很容易造成后期使用過程中額外的修改和改動。實際上,數據中心運維人員在實際運維中經常遭遇這樣的情景:使用中發現配電柜沒有預留足夠的空開位置,造成必要的維護工序無法完成;電池柜的設計安裝未預留服務空間;建筑結構設計使得通風裝置無法提供所需要的通風量,等等。如果在設計階段就包括運營評估的環節,那這些問題就可以盡可能地避免。
最有效、最省錢、最高效的數據中心應當采用生命周期總擁有成本(TCO)的方式來規劃管理,以平衡投資和運營成本,進而滿足業務需求。其中很重要的一步就是根據公司具體業務需求制定設計指標和運營目標。這樣,建造的數據中心目的性更強。
不能僅僅依賴數據中心的設計
許多公司認為高級別的冗余設計可以彌補運維預算的不足,但多方的研究證明,關鍵任務環境下,人為錯誤是宕機的首要因素。為什么人們還是會忽略運維呢?主要是因為硬件的設計建設是看得見摸得著的,而運營的經驗相對來說需要更多的時間積累。所以我們時常看到公司花費大量投資進行硬件建設,而忽略運營規劃所需的預算。很多缺乏經驗的用戶不知從何下手時,往往會把數據中心的運維交給不具備專業知識的第三方管理。比如說,很多數據中心的運維交由辦公室建筑維護類公司,而這類公司往往并不具備操作和管理關鍵設施的技能。最大的區別在于,辦公室環境的維護修復是可以離線進行的,而關鍵設施環境下的維護是以盡可能減少宕機時間為最高信條。
所以無論是基礎設施管理還是數據中心運營團隊的架構必須圍繞著一個目標:最大化正常運行時間。具體而言,與維護傳統設施環境相比,維護關鍵設施環境有特殊的需求。例如,要求連續運營,不許宕機,要求實現冗余系統,發生故障時能主動切換,等等。無疑,滿足這些特殊需求的關鍵在于用正確的方法建立運營體系。
重視人才,重視培訓
數據中心環境下,低估人員構成是有風險的,有可能造成緊急情況下無法恢復正常運行。合理安排人員配置,以優化緊急狀況響應、設備維護和供應商管理。同樣,招聘并保留合適的人員至關重要。招聘具備專業技能的合格員工不是那么容易的,招聘時要通過嚴格的篩選過程,來驗證應聘人員的技術、管理和溝通能力,因為這些技能對數據中心關鍵設施的運營必不可少。當然,找到合適的人選只是第一步。
招募了優秀人才還要能留住他們。過高的人員流失比例對數據中心里的大多數運營項目造成風險。提供完善的培訓和支持,營造良好的職業發展空間可以有效地保留員工。經過系統培訓的員工將了解如何安全地操作和維護系統,并知道在出現問題時如何處理。
很多情況下,設備安裝調試完成后,設備供應商或總包商會提供相關設備的培訓,但這樣的培訓往往針對具體的設備而很少全面考慮數據中心的整體運營。而接受培訓的員工又“言傳身教”,“口口相傳”地培訓其他人,這樣的培訓方式很容易使一些不正確的方法和流程成為標準化的東西。
因此,我們需要的是一套完整的培訓和考核體系,根據掌握的技能將人員按不同資質資格劃分,同時提高不同層次人員的業務水準。通常情況下,業務人員水準可分為以下幾個層次:
· 在指導監督下的基本操作;
· 進行日常操作及維護;
· 進行高級操作及維護;
· 專業領域專家
糟糕的培訓往往是由于沒有花足夠的時間和經費來開發培訓規劃。所謂“磨刀不誤砍柴工”,很多IT經理們忽略了這樣一個簡單的道理。良好的培訓可以帶來正常工作時間的增加、維護成本的節約,以及人員流失的降低,所有這些收益都會遠遠抵消開發培訓規劃的成本和努力。
持續不斷地演練
任何緊急狀況下,數據中心的操作人員都應該象訓練有素的救火隊員一樣從容應對。要做到這一點,關鍵是持續不斷地安排專門時間演練。而且這樣的演練需要數據中心所有相關人士的參與,從而令每個人都明確在緊急狀況發生時應該做什么。
好的演練需要完備的教材。有效的培訓教材應該包含以下內容:
· 緊急措施的演練內容
· 主要設備、系統的操作原理
· 操作與維護流程
· 不同級別培訓的考核
給演練和測試考核打分可以促進持續不斷的進步。
把運維上升為流程
發生在數據中心關鍵設施內的一切行為都應記錄在案,有據可查,以便于量化比較結果,為改進提供依據,促進優化。
供應商提供的文件是運營的一個重要部分,但關鍵環境下運營團隊操作的詳細流程同等重要。這包括數據中心內通路安排、日常操作、預防性維護、修正性維護和應急響應。另外,最終交付施工圖紙對安全可靠運行也十分重要,例如設備列表、維護工作內容、維護時間安排等看似簡單的信息經常會遺失,不準確或不充分。管理歸檔好這些文件對數據中心生命周期的維護至關重要。
合理實施工序與流程
在數據中心這樣的關鍵環境里,所有的工作都要應該有成文的流程。最常見的流程如下所示:
標準操作流程(Standard Operating Procedure/SOP)。可以是功能性或者管理性的,詳細描述規定操作流程,可在任何情況下引用。
流程方法(Method of Procedure/MOP)。直接工作于或圍繞對關鍵負載有直接或間接影響的設備時,一步一步,詳細描述的流程。
緊急情況操作流程(Emergency Operating Procedure/EOP)。故障狀態下的應急反應流程,包括如何確保安全、恢復冗余,及隔離故障。
供應商管理(Vendor Management/VM)。當供應商參與時,如果沒有完善的供應商管理體系,會引入不必要的風險。設備供應商人員在數據中心內的所有行動都需要在SOP、MOP和EOP中有詳細的監督和規定。沒有合理的文檔記錄和監督體系,造成人為故障的風險大大增加。因此,坊間時常流傳這樣的故事:即設備供應商去某重要客戶數據中心進行維護卻造成宕機事件。
應急響應(Emergency Response/ER)。無論準備如何充分,不測事件總會發生。精心設計的應急響應機制和總結流程,包括詳細的事件報告、故障分析,以及經驗教訓總結,可以防止類似事件的再次發生并減少損失。