微軟存儲服務性能更新導致Azure故障

責任編輯：editor005 |來源：企業(yè)網(wǎng)D1Net 2014-11-24 17:26:54 本文摘自：ZDNet至頂網(wǎng)

上周微軟Azure近11小時的故障是由于微軟升級Azure存儲服務的性能導致的，微軟Azure企業(yè)副總裁Jason Zander解釋了這次故障的原因，并對所有受影響的Azure用戶道歉。

美國太平洋時間11月18日晚，美國、歐洲和亞洲部分Azure用戶存儲和網(wǎng)站服務無法訪問，部分Xbox LIVE用戶無法聯(lián)機，微軟MSN.com網(wǎng)站、Visual Studio Online和搜索也得到了影響。更糟糕的是，Azure服務健康狀態(tài)（Service Health Dashboard）和Azure管理門戶（Management Portal）都依賴于Azure存儲服務，這兩款服務都沒有正確地顯示Azure的狀態(tài)，在Azure故障的時候，頁面顯示服務狀態(tài)為正常。

盡管微軟已經(jīng)測試了幾周這次的Azure存儲服務的性能更新，但直到微軟部署到Azure上才意識到“有一個問題導致存儲二進制大對象前端進入無限循環(huán)”的問題。Jason Zander表示，“結果是前端無法承接進一步的流量，反過來又導致建立在它之上的其他的服務出現(xiàn)問題。”

微軟在發(fā)現(xiàn)問題后，立刻回滾了更新，但仍需要重啟存儲前端來徹底恢復。根據(jù)官方故障報告，“這次故障已經(jīng)被大范圍擴散，由于操作失誤更新在短時間內快速部署到了大部分數(shù)據(jù)中心，通常這一生產(chǎn)環(huán)境的部署是漸進部署的”。

Zander表示，結果是一些客戶仍然會遇到“間歇性的問題”。他表示，微軟的工程師們正在和這些客戶一起解決這些難纏的問題。

Jason Zander也承諾盡可能避免再出現(xiàn)此類故障：

確保部署工具強化應用產(chǎn)品變更的標準協(xié)議，在產(chǎn)品更新的過程中使用漸進式部署。改進恢復方法，盡量減少恢復時間。修復存儲前端無限循環(huán)Bug，然后再部署到生產(chǎn)環(huán)境。改進服務健康狀態(tài)架構（Service Health Dashboard Infrastructure）和協(xié)議。

關鍵字：Azure 微軟存儲網(wǎng)軟件