今年五月末,互聯網連續出現兩次“黑天鵝事件”仍讓我們記憶猶新。支付寶因“光纖被挖斷”大規模癱瘓2小時,網友驚呼:高科技都頂不住傳統行業一鏟子。隨后,攜程又因數據被人為刪除,導致官方網站及APP無法使用,搶救12小時后才恢復。顯然,兩家企業都被“黑天鵝”造訪,好在結果有驚無險,試想,如果這類突發意外沒有有效的應急措施,故障無法恢復,將會帶來什么?
黑天鵝事件
“黑天鵝”可能會飛到任何領域,它在意料之外,卻又改變一切。當下,國內外經濟形勢已進入一個新常態,互聯網、金融、商業等領域關鍵業務不允許宕機,數據不允許丟失。在業務連續性管理中,如何應對各種風險問題引起更高關注度。
招商銀行數據中心技術管理室主管 張春林
擁有十二年金融業IT運維從業經驗的張春林,在接受賽迪網專訪時表示,我們一直在憑借經驗教訓總結多種模型對抗風險,也只是用已知對抗未知,永遠慢半拍。作為招商銀行數據中心技術管理室主管,張春林曾負責招商銀行重要系統災備建設項目、招商銀行總行負載均衡項目、招商銀行分行負載均衡項目、應急管理項目等。在負載均衡技術、高可用架構、災備和應急管理、自動化運維等領域積累了豐富的實戰經驗。
在大型商業銀行故障管理實踐中,他們總結出一套“應急標準化方法論”。對于大型商業銀行而言,由于業務對信息系統強依賴,信息系統的可用性成為關系到財務收益和聲譽風險的重要因子,而應急處置效率又是影響可用性的關鍵因素之一。如何快速有效地處置突發事件,既是商業銀行的內在管理需要,也是外部監管要求。
招商銀行張春林說,金融危機的發生是由金融體系的脆弱性內生決定的。同理,信息科技風險也是由信息系統的脆弱性內生決定的。諸如,萬分之四的硬盤壞盤率、數以萬計的軟件代碼的BUG、新老員工更替帶來的斷層、以已知對抗未知的無奈。因此,“黑天鵝事件”告訴我們,需要轉換應對危機的思考方式:不要預測、謹慎預防、保證充足的冗余。
招商銀行數據中心技術管理室主管 張春林
張春林分析,就商業銀行故障歷史數據來看,很多故障的處理時長超過30分鐘;很多故障無法通過切換來解決。為了提升應急效率,需要縮短故障修復時間,可以通過故障自愈、一鍵恢復工具、業務補帳工具、流量清洗服務等具體措施實現。
其中,業務補帳在異地災備中非常重要。由于異地災備存在時延,數據雙活難以達到“真雙活”,雖然RPO可以做到秒級差異,數據仍難以達到一致。張春林舉例說,招商銀行是北京和上海雙中心運行,兩地直線距離1500公里,中間還有傳輸設備,光傳輸即便做到極致仍然有30毫秒的差異,這是不可改變的物理規律。人工補帳雖然可以彌補缺失,但效率不高。支付寶癱瘓2小時事件,張春林認為時間并不是用來恢復光纜,很有可能是在做補帳。現在,更高效的方式是自動代替人工。將人工補帳過程工具化,實現半自動補帳。
在招行的實踐中,他們還將故障場景標準化。不同于收集以原因為導向的故障場景案例庫,而以IT的視角,以結果為導向,根據組件發生故障的類型來組合推導故障原因。“一個IT系統的組件數量是有限的,而每個組件的故障種類其實也并不多。無論是A場景還是B場景,只要解決方案是一樣的,就可以歸類為同一個場景。總結下來,其實情景并不多”,張春林解釋說。據招商銀行分析總結,有25%的故障可以通過重啟、隔離、異地切換來解決;60%的故障用高可用架構來解決;10%需要手工診斷解決;另外5%的未知風險才需要專家等人員來解決。賽迪網視頻專訪招商銀行張春林片段
在賽迪網專訪接近尾聲時,張春林表示,未來商業銀行業務連續性和災備的發展方向,一是演練切換向常態運行轉變。做到真正的雙中心輪替運行,而不是災備中心一直空閑,需要切換時也不敢動手。第二,自動化代替人工,減少人為誤操作。商業銀行也在以開放的心態向先進的互聯網公司學習和借鑒,行之有效的方法也將被陸續采納。