5月28日中午,攜程網網站和App無法登錄,網上也傳出攜程全線酒店數據庫遭遇物理刪除的消息。攜程官方則發布聲明稱,因遭到不明攻擊,網站和App陷入癱瘓,無法正常使用。此前,支付寶也于5月27日下午出現大面積訪問故障。當晚10時25分,阿里技術保障部門發布微博承認,擁有將近3億活躍用戶的支付寶出現網絡故障,故障原因為光纜被挖掘機挖斷。雖然目前支付寶的各項業務都已經恢復,但業內人士對支付寶在故障倒換能力和應急反應速度上并不滿意,普遍認為互聯金融系統的運行穩定性并不如此前所宣稱的那樣完善。
同時,我們也不由得想起2015年年初facebook的宕機事件,2014年paypal的服務中斷……構架在各種物理連接,如網絡、數據中心之上的互聯網世界真這么脆弱嗎?一旦發生類似“掛了”的嚴重事故,是否有力回天?
互聯網業的備份與恢復,離不開災備中心的運營管理。災備中心對環境要求很高,比如必須遠離強地震帶,周圍沒有重大軍事目標和重大工程設施等。機房標準需要全面達到或超過國家A級機房的標準,機房主體結構要求達到8級以上抗震標準,UPS機房稱重要求達到1000kg/m2。此外,一個安全穩定的災備中心對于網絡通信、綜合布線、消防安保、空調等多方面都有極其嚴苛的要求。
除了部署相應的硬件設施外,應急預案和災備演練也必不可少。
應急預案的制訂,除了普適性預案,如應急響應預案、IT恢復預案、業務恢復預案外,還應該根據實際,增加特定場景及特定系統預案。
災備演練則是培養政府、企業的應急管理意識,檢驗應急預案的適用性,發現并持續改進問題的重要手段。桌面演練和模擬演練是一般性的常規演練,可以比較真實地檢驗災備系統的可用性、有效性,但在政府、銀行、保險、電信、航空等關鍵業務領域,往往還需要進行實際切換演練。實際切換演練可以最大限度地檢驗災備系統和災難恢復預案的有效性和災難恢復能力。
在上周連續發生的兩起事故中,異地多活的系統架構成為業界另一個重要的關注點。支付寶采用的是異地雙活系統,但業界普遍對長達兩個小時的業務恢復時間表示不滿,質疑其究竟是出于資金安全考慮而主動放緩速度還是支付寶應急預案出現漏洞。與此相反,銀行業采用的異地多活系統架構則更為穩定。有大型銀行內部從業人員向媒體表示,傳統金融機構對涉及用戶資金的重要系統采用了十分完備的災備方案,一般會部署“兩地三中心”的云備份方案,保證“同城災備結合異地災備”,以具備應對重大災難或戰爭等極端情況的能力。