分析導致數據中心事件的故障可能會讓內部的IT操作人員與承包商和供應商互掐。
數據中心里面的系統出現故障總是有其理由的,而掌權者們通常能找到背黑鍋的對象——無論這個人是IT操作工作人員、原始設備制造商(OEM)廠商、系統集成商,還是第三方服務提供商。
犯事者常常會留下清晰可見的指紋,比如給部件貼錯標簽,或者沒有更新流程。一些事件顯然是由于多個有關方的疏忽大意。
Uptime Institute是一家專業組織,其成員包括來自多個行業的數據中心管理人員。近20年來,它一直在收集和研究數據中心事件方面的數據,現得出了這個結論:絕大多數問題是由外面的有關方引起的,比如承包商或供應商;比較少但仍相當多的一部分歸咎于內部的IT工作人員。
自1994年以來,Uptime收集了關于大約5000起異常事件的數據;按它的定義,異常事件是指,某一個設備或基礎架構部件沒有按預計的方式正常運行。事件報告由Uptime的成員們主動上報。
Uptime表示,它在分析后發現,歸因于操作人員的異常事件所占的百分比在2009年是34%,2010年是41%,去年是40%。
在2009年到2011年報告的事件中,50%至60%歸咎于處理客戶數據中心或為客戶數據中心供應設備的第三方操作人員,比如制造商、供應商、廠方代表、安裝人員和集成人員。
這一分析可能面臨遭到各方的抨擊,因為內部的IT操作人員或數據中心供應商都不容易背黑鍋,除非故障事件影響了企業收入。
比如說,艾默生網絡能源公司Liebert服務部門的電力技術支持主管Ahmad Moshiri表示,在一些情況下,供應商的確因他們覺得是內部IT操作人員疏忽引起的問題而背黑鍋。
他說:“供應商處在敏感的位置。它不想讓客戶(數據中心管理人員)處于難堪的境地。這非常棘手。”
Uptime表示,它還發現,在最糟糕的異常事件中——導致系統或數據中心停運的事件,絕大多數(60%)歸因于內部的IT操作人員。
Uptime的研究和教育執行負責人Hank Seader表示,那些結果同樣可能具有誤導性。Seader說:“扔香蕉皮的常常是設計、制造和安裝方面的流程,而在香蕉皮上摔倒的是操作人員。”
David Filas是總部設在密歇根州諾維的醫療服務機構Trinity Health的數據中心工程師,他補充說:“工程師、架構師和安裝承包商的設計和行動對數據中心的操作可能會有潛伏的影響,哪怕數據中心興建后已過了很久。外部因素完全如同內部因素一樣很容易事關數據中心的成敗。”
他特別指出,Trinity Health挨過了一次數據中心停運事件;之所以會出現那次停運事件,是由于早幾年在興建數據中心,緊急斷電旁路電路并沒有嚴格按規格來制造。
Filas表示,IT部門更依賴承包商來制造或更新數據中心,這加大了出現問題的風險。
他表示,比如說,電氣承包商可能不了解某個數據中心的具體要求。他補充說:“有人經常問我們,我們為什么要為數據中心機架提供冗余電源。”
艾默生公司的Moshiri提到流程和程序方面的問題是導致數據中心出現問題的主要根源,如果涉及多家供應商、需要高度協調時更是如此。