上周微軟Azure近11小時的故障是由于微軟升級Azure存儲服務的性能導致的,微軟Azure企業(yè)副總裁Jason Zander解釋了這次故障的原因,并對所有受影響的Azure用戶道歉。
美國太平洋時間11月18日晚,美國、歐洲和亞洲部分Azure用戶存儲和網(wǎng)站服務無法訪問,部分Xbox LIVE用戶無法聯(lián)機,微軟MSN.com網(wǎng)站、Visual Studio Online和搜索也得到了影響。更糟糕的是,Azure服務健康狀態(tài)(Service Health Dashboard)和Azure管理門戶(Management Portal)都依賴于Azure存儲服務,這兩款服務都沒有正確地顯示Azure的狀態(tài),在Azure故障的時候,頁面顯示服務狀態(tài)為正常。
盡管微軟已經(jīng)測試了幾周這次的Azure存儲服務的性能更新,但直到微軟部署到Azure上才意識到“有一個問題導致存儲二進制大對象前端進入無限循環(huán)”的問題。Jason Zander表示,“結果是前端無法承接進一步的流量,反過來又導致建立在它之上的其他的服務出現(xiàn)問題。”
微軟在發(fā)現(xiàn)問題后,立刻回滾了更新,但仍需要重啟存儲前端來徹底恢復。根據(jù)官方故障報告,“這次故障已經(jīng)被大范圍擴散,由于操作失誤更新在短時間內快速部署到了大部分數(shù)據(jù)中心,通常這一生產(chǎn)環(huán)境的部署是漸進部署的”。
Zander表示,結果是一些客戶仍然會遇到“間歇性的問題”。他表示,微軟的工程師們正在和這些客戶一起解決這些難纏的問題。
Jason Zander也承諾盡可能避免再出現(xiàn)此類故障:
確保部署工具強化應用產(chǎn)品變更的標準協(xié)議,在產(chǎn)品更新的過程中使用漸進式部署。改進恢復方法,盡量減少恢復時間。修復存儲前端無限循環(huán)Bug,然后再部署到生產(chǎn)環(huán)境。改進服務健康狀態(tài)架構(Service Health Dashboard Infrastructure)和協(xié)議。