好的演練需要完備的教材。有效的培訓教材應該包含以下內容:
· 緊急措施的演練內容
· 主要設備、系統的操作原理
· 操作與維護流程
· 不同級別培訓的考核
給演練和測試考核打分可以促進持續不斷的進步。
把運維上升為流程
發生在數據中心關鍵設施內的一切行為都應記錄在案,有據可查,以便于量化比較結果,為改進提供依據,促進優化。
供應商提供的文件是運營的一個重要部分,但關鍵環境下運營團隊操作的詳細流程同等重要。這包括數據中心內通路安排、日常操作、預防性維護、修正性維護和應急響應。另外,最終交付施工圖紙對安全可靠運行也十分重要,例如設備列表、維護工作內容、維護時間安排等看似簡單的信息經常會遺失,不準確或不充分。管理歸檔好這些文件對數據中心生命周期的維護至關重要。
合理實施工序與流程
在數據中心這樣的關鍵環境里,所有的工作都要應該有成文的流程。最常見的流程如下所示:
標準操作流程(Standard Operating Procedure/SOP)。可以是功能性或者管理性的,詳細描述規定操作流程,可在任何情況下引用。
流程方法(Method of Procedure/MOP)。直接工作于或圍繞對關鍵負載有直接或間接影響的設備時,一步一步,詳細描述的流程。
緊急情況操作流程(Emergency Operating Procedure/EOP)。故障狀態下的應急反應流程,包括如何確保安全、恢復冗余,及隔離故障。
供應商管理(Vendor Management/VM)。當供應商參與時,如果沒有完善的供應商管理體系,會引入不必要的風險。設備供應商人員在數據中心內的所有行動都需要在SOP、MOP和EOP中有詳細的監督和規定。沒有合理的文檔記錄和監督體系,造成人為故障的風險大大增加。因此,坊間時常流傳這樣的故事:即設備供應商去某重要客戶數據中心進行維護卻造成宕機事件。
應急響應(Emergency Response/ER)。無論準備如何充分,不測事件總會發生。精心設計的應急響應機制和總結流程,包括詳細的事件報告、故障分析,以及經驗教訓總結,可以防止類似事件的再次發生并減少損失。