去年達美航空公司的宕機在平靜的航空業掀起了漣漪,而后宕機事件可謂前赴后繼。IT中斷給乘客帶來不好的用戶體驗外,也讓航空公司遭受巨大的經濟損失。那么航空公司有沒有從這一起起事件中獲得一些經驗教訓呢?
從1月底達美航空公司的停機時間來看,比去年的事故要短,且主要耗時在災難恢復(DR)和IT復原方面,貌似應該是從上一次事故中吸取了經驗。
對于航空公司來講,最大的挑戰是系統相互依賴,極為復雜,且必須全天性提供,不能進行停機升級和維護,而像航空公司這樣的傳統環境本就缺乏處理脆弱環境的能力。
有些公司開始將目光轉向云計算這類新的技術。作為全球最大的航空公司,美國航空公司已經開始將一些應用程序遷移至云端,以獲取更高的靈活性、可擴展性和可靠性。此前它已與IBM簽訂協議,目前正在考慮其他的云業務和供應商。
為何航空公司IT系統如此脆弱?前不久,聯合航空公司數據中心也發生了中斷,而備受航空公司依賴的飛機通信處理和報告系統(ACARS)又罷了一次工。ACARS負責處理起飛時間、著陸時間、到達時間的數據傳輸,也涵蓋重量和平衡、天氣和風力和飛行計劃等信息,同時還囊括聯邦航空管理局的空中交通管制數據。
這種用相對舊的語言編寫的舊系統運行在舊的硬件上,本身就如風中的稻草般脆弱。且航空公司的合并/收購致使不同系統進行集成和合并,使問題更為復雜化,鑒于現有系統的復雜,耗費大量財力物力重建IT基礎設施幾乎不太現實。
造成航空公司數據中心中斷的原因與其他行業并無二致:沒有被檢測出的故障或更新失敗。因此,變化控制和測試對保護環境健康運作來講極為關鍵,需要更有效的變更控制用以識別和審查變更。對于常出現人為錯誤的地方,自動化可以有效地幫助解決問題。
對于航空公司來講,6-8個小時的宕機仍是不可容忍的。通過自動化將舊的基礎設施與新的基礎設施連接起來,解決不同系統間手動切換的問題。自動化工具在堆棧中可以跨越和連接不同系統,將其編排到一個工作流程中。而企業DR計劃也要嚴格進行定期測試,確保問題發生時能發揮作用,若只是為了滿足政策合規那就很尷尬了。
當然,僅擁有DR計劃還遠遠不夠,對新技術的采用以及保持IT人員與時俱進也對IT系統的彈性有著重要影響,確保IT人員對恢復工作的了解是十分必要的。