如今,人為操作失誤已經成為數據中心業務中斷的一個主要問題,其嚴重性超出了許多人的想像。研究表明,人為錯誤占導致數據中心所有停機時間因素的60%至80%。而FORTRUST公司首席運營官Robert McClary認為人為錯誤是導致數據中心意外中斷的最主要的原因之一,并為此制定了專門減輕數據中心人為錯誤的策略。
客戶可以通過他們的數據中心和托管提供商尋找幾種行為和策略,這些行為和策略可以表明提供商消除人為錯誤的承諾。
"過程控制和過程的全面記錄至關重要,因為許多計劃外停機事件是人為錯誤的結果。"McClary表示,"采用文檔化、驗證和可重復的過程為操作、服務交付和維護創建標準化的方法,同時減輕或消除與人為錯誤相關的風險。"
(1)穩健的流程和文檔
在FORTRUST公司發布的"數據中心最大可靠性操作指南"中,McClary建議不僅要確定具體的操作流程控制和程序,而且還要記錄這一活動的強大策略。
以這種方式,在數據中心內進行的每個操作過程都應該按照一個文檔化,驗證和經過良好實踐的程序進行。
雖然數據中心管理人員和工作人員需要花費一些時間和精力來創建、記錄和維護這些程序,但這種方法帶來了很大的好處。除了減輕人為錯誤之外,建立適當的程序庫還可以鼓勵一致性,支持持續的培訓和學習,并幫助工作人員建立知識庫。這一切都有助于確保問題始終不會出現。
(2)培訓員工確保具有必要的技能
對于數據中心工作人員來說,擁有保持數據中心正常運行所需的技能也是很重要的,并且在故障停機之前查明并處理任何問題都是很重要的。
某些技能是關鍵的,而其他技能可以隨著時間的推移而被傳授。總的來說,數據中心工作人員應該了解電氣和機械系統的基本知識,數據中心系統之間的相互關系,以及如何解決在這些類型的環境中可能出現的常見問題。此外,工作人員還應具有良好的解釋能力和分析解決問題的能力。
為了建立一致的基礎知識,服務供應商也應該定期培訓他們的員工。McClary指出,許多數據中心設施運營商只提供短暫的工作培訓,但不一定會長期進行。培訓必須持續開展,而每個員工都應該對自己的教育和能力負責。
記錄的流程和程序可為培訓工作奠定基礎。隨著知識范圍的不斷變化和擴展,額外的培訓可以確保對每個工作人員的角色,責任,以及所需技能有著敏銳的了解。
(3)檢查和演練
數據中心員工花費時間去體驗并檢查數據中心設施中的所有關鍵系統至關重要。這些演練可以與培訓工作結合起來,幫助工作人員認識到關鍵組成部分和任何可能出現的問題。
數據中心管理人員應該通過他們的檢查來制定一些文檔化的程序來幫助指導這些工作。這包括在演練期間應該檢查的項目的列表,工作人員應該記錄的具體參數,以及在參數結果中應采取的步驟。
McClary指出,雖然這些演練肯定需要一定的時間,但他們也可以幫助工作人員找出容易糾正的問題,防止以后出現更大的問題。
總體而言,防止人為錯誤的關鍵因素需要制定正確的戰略和程序、培訓工作人員,并花時間檢查關鍵系統。這三種方法對于致力于數據中心高效穩定運營的工作人員來說至關重要。