此次事件反應出支付寶在故障倒換能力和應急反應速度上還有待提高,反應出互聯網公司在應急處理能力上的普遍短板,互聯金融系統的運行穩定性并不如此前所宣稱那樣完善。
5月27日下午5點,擁有將近3億活躍用戶的支付寶出現了大面積訪問故障,全國多省市支付寶用戶出現手機和電腦支付寶無法登陸、余額錯誤等問題。對于導致此次事件的原因,螞蟻金服方面的解釋并未獲得金融和互聯網界的廣泛認同。
在螞蟻金服發給《財經》的官方回應中稱,出現這一問題的原因在于市政施工導致杭州市某地光纜被挖斷,影響了支付寶一個主要機房的正常運轉。當天晚上19時左右,即在事故發生大約兩個多小時以后,支付寶服務才恢復正常。
螞蟻金服稱,無法精確統計在故障時間段內使用支付寶的具體用戶數量。
擁有超過4萬億年交易總額的支付寶是中國第一大第三方交易平臺,約占中國整體社會消費金額的六分之一。故障發生后,用戶普遍擔心賬戶資金安全問題,亦有用戶反應出現賬戶余額不同步的現象。
螞蟻金服對此回應,支付寶有完善的技術和措施保護用戶的資金安全,支付寶中的任何一個交易,同時都會有多份記錄,數據可靠性極高。如果有用戶出現交易不同步的情況,后續都會得到妥善解決。
這份螞蟻金服發給《財經》的官方回應還指出,支付寶異地多活的系統架構在此次意外中發揮了巨大作用:一方面,沒有因光纜被挖斷而影響全部用戶;另一方面,緊急將故障機房的流量切換至了其他機房。在當晚7點支付寶服務恢復時,被挖斷的光纜還沒有修復。
螞蟻金服一位高管向《財經》記者表示,大流量網站實時切換涉及資金時有難度,需要安全地將用戶的數據,尤其是資金數據也切換到其它機房,所以切換操作需要花費較多的時間。“技術上可以做到更快恢復,之所以較慢是為了確保不丟數據。”
螞蟻金服對于這次事故的內部總結是,數據校驗較多,怕丟數據,所以花了較多時間。內部認為這是一次安全但不夠漂亮的災備實戰,就好比跳水,起跳不錯,空中動作也還行,但入水壓水花不夠好。
《財經》記者了解,支付寶采用異地雙活的系統架構,的確有多個機房。正因為如此,本次支付寶杭州機房網絡中斷,只影響了一個機房,其它機房的業務不受影響。
但這依然受到外界質疑。質疑焦點有二:一是恢復時間竟然長達兩個小時;二是究竟是出于資金安全考慮而主動放緩速度還是支付寶應急預案出現漏洞?
一位國有大型銀行內部人士向《財經》記者表示,如果在銀行的支付系統發生大面積癱瘓超過2個小時,已經屬于重大安全事故,很有可能要向國務院匯報備案。
他向《財經》記者強調,傳統金融機構發生這樣波及全國范圍的安全問題幾率微乎其微,原因在于銀行涉及用戶資金的重要系統災備方案十分完備,一般是“兩地三中心”云備份方案,保證“同城災備結合異地災備”,目的在于防止重大災難或戰爭等極端情況。
上述國有大型銀行內部人士認為,正因為此,如果銀行系統出現支付寶因光纜被挖斷而導致一個數據中心停擺的情況,用戶流量和系統會向同城或異地其他數據中心切換。“就算不會是即時切換,也不會花費太長時間,同城可能會更快,就是用戶根本感受不到延遲。”
這一說法得到多位接受《財經》記者采訪的電信技術人士的支持。中國電信的一位技術高層人士分析,服務故障切換機制應該是自動的,根據一定的事先設置的策略,無需人為干預,人工可以在服務切換后,再重新定義流量疏導方式。
該人士稱,支付寶多中心制的網絡架構設計,不同于普通用戶接入光纜寬帶服務,不可能只是用一個區域性的小機房,一根光纜被挖斷了就斷服務了。支付寶機房服務的路由應該非常多,不可能只接一家運營商,即便只是一家,肯定也是多路由接入。“數據路由就像供電,來自不同的變壓器和能原地。”
一位曾在湯森路透工作的阿里巴巴程序員亦向《財經》記者表示,湯森路透號稱世界最大金融網絡,處理全球實時金融數據,要求不能宕機,哪怕自然災害或戰爭。他們機房這樣建的:兩條不同電信公司的光纜和不同電力公司的電纜分別從機房的兩個方向進入,同一個機房的所有系統實時雙備份,并建設兩個不同城市(巴黎、日內瓦)機房同時實時處理相同的數據。
某大型國企網絡運維人員稱,從技術角度看,支付寶此次事故可能是內部應用模塊出了問題,未經嚴格驗證的應用被統一升級后,被意外觸發到未知狀態,會導致此類問題。
上述運維人員還表示,經他觀察,支付寶DBA(數據管理人員)緊急恢復了RPO=10days的完整數據(RPO,Recovery Point Objective,復原點目標,是指當服務恢復后,恢復得來的數據所對應時間點,理想的狀態是RPO=0,故障出現立即恢復,但需要極大投入),并不停地進行分段增量數據恢復,歷時約2小時余,這就是應用模塊的問題。
上述中國電信技術人士則分析認為,出現這種問題的可能性是,支付寶多個數據中心之間的自動流量切換機制出現問題,只能人工介入。還可能是其他三種原因:一是很有可能是支付寶遭到了攻擊;二是支付寶的路由配置癱瘓了;三是支付寶的云服務器癱瘓了,亞馬遜也出現過這個問題。號稱最先進最安全的阿里云系統對自家業務并沒支撐好。
就以上相關問題,《財經》記者詢問了螞蟻金服方面,螞蟻金服回應稱,具體的技術分析正在加緊進行,但得出結論判斷還需要一段時間。
微妙的是,在螞蟻金服更早的一份媒體回應中稱,之所以花費較長時間,是在流量向支付寶位于深圳的數據中心遷移的時候,切換系統也受到了光纖斷裂的影響,所以切換上花費了一些時間。這與“技術上他們可以做到更快恢復,之所以較慢是為了確保不丟數據”這一說法并不一致。
另有行業人士評價,此次事件反應出支付寶在故障倒換能力和應急反應速度上還有待提高,反應出互聯網公司在應急處理能力上的普遍短板,互聯金融系統的運行穩定性并不如此前所宣稱那樣完善。在支付寶發生大面積癱瘓事故之后,互聯網企業的運維人員建立微信群對此展開了討論。
隨著云計算和大數據的逐步普及,以及人們在互聯網應用越來越重的資產托付,IT技術領域普遍呼吁互聯網公司改變“盡力而為”的服務承諾和網絡架構,向傳統電信、IT領域高達99.999%的“5個9”安全級別靠攏。
螞蟻金服表示,支付寶將不斷提升災備切換速度,希望未來這樣的切換能讓用戶無感知或者最小化感知。
對于此次事故帶來的具體損失額度,螞蟻金服表示,暫時無法統計。