為了幫助行業從像最近的英國航空公司發生的IT事故這樣的事件中學習,此次中斷事件在5月底的那個周末取消了數千架次的航班。目前一個即將成立的行業組織將致力于分享有關數據中心故障的數據。
如果航空公司的一架飛機發生空難,那么就會立即進行中立調查,以查明出現的問題。數據中心也可以提供這樣的關鍵服務,但其故障或潛在的災難通常被隱瞞,或受到涉及公司的內部查詢,最終被不對外披露協議所掩蓋,其結果是相同的故障將一再反復發生。
數據中心事件報告網絡旨在通過建立一個中立和匿名的論壇來共享關于導致嚴重的IT故障或近乎失敗原因的數據來改變這一點。它將于今年8月3日在英國數據中心利益集團倫敦會議上發布。
從失敗中學習
i3 Solutions公司創始人Ed Ansett表示,“人們需要了解的重要事情是許多故障是經常性故障。“我前段時間得出的結論是人們沒有從經驗中學習。”
Ansett對許多重復發生的IT故障進行了編目,他表示,“很多數據中心的中斷,人們曾多次遭遇,就像兩年前的新加坡證券交易所的中斷事件,但人們需要找出其根本原因,以及如何避免這種情況。”
Ansett表示,之所以有了分享這些事件發生原因的想法首先出現在2015年DCD新加坡活動的演講中。他說:“分享的目的不是為了獲得利益,而是一種數據中心的民間學習行為。”
盡管人們通常不愿分享自己的數據中心失敗的細節,但Ansett相信有些企業會愿意分享“數據中心的崩潰的原因和宕機的細節”,并以此教育人們。Ansett說,“我的感覺是有很多人都想進行分享,特別是幾年前的事情。”
該小組將開始從小做起,但在某些時候,它將需要資助一個審查提交信息的秘書處。Ansett說,任何資金都必須是中性的,而不是來自單一的設備供應商。數據中心行業沒有相當于民航局可以進行碰撞調查的機構。
目前i3 Solutions公司設有一個咨詢委員會,主要致力調查電力和冷卻領域,但其未來的計劃將達到到更高的層次,其中包括網絡,服務器和存儲和應用。
在數據中心故障之前,這只是一個時間問。英國DCIG公司的Simon Allen說。“我們現在需要采取行動,沒有理由這個古老的秘密應該占上風。”
他指出航空業界分享事故信息的記錄,他說:“在數據中心行業,普遍的做法就是在誤導保護企業聲譽的過程中,掩蓋其失敗或潛在的災難,情況并非如此。其根本原因調查結果通常是秘密的,受到NDA的約束,導致數據中心行業在從失敗中學習中處于不利地位。”
i3 Solutions公司的第三方受托人是關鍵任務設施專家Peter Gross。