就在兩個星期前,歐洲有大量的Office 365用戶經(jīng)歷了服務(wù)中斷,時間長達(dá)幾個小時。
微軟的官員們最近通過一份事故報告分享了一些幕后的情況,說明了是哪里出現(xiàn)了問題,這份報告可以通過Office 365 Dashboard查看。我首次發(fā)現(xiàn)這份報告——PIR IS3496,還要感謝Windows IT Pro網(wǎng)站上Tony Redmond的一篇博客文章。(我在自己的Office 365 Dashboard上沒能找到這份事故報告,不知道是什么原因,但是我確實看到了完整報告的副本。)
根據(jù)這份報告,12月3日的Office 365故障持續(xù)了大約四個小時,大約是從(UTC)上午九點(diǎn)開始的。這份報告承認(rèn)“歐洲地區(qū)很多用戶都受到了這一問題的影響。”一些來自其他地區(qū)的用戶,只要是通過歐洲進(jìn)行身份驗證,也有可能在那一天受到了這個問題的影響。
報告指出,“大約1%的Outlook和35%的OOTW(Outlook on the Web)請求受到了影響。”
這份事故報告表示,“受到影響的用戶也無法登錄進(jìn)入Office 365門戶。而且,一些用戶也無法使用Office 365服務(wù),包括SharePoint Online服務(wù)、Power BI、Microsoft Intune、 Yammer和Exchange Online。Exchange Online、Outlook on the web (OOTW)用戶受到的影響最為嚴(yán)重,但是對Outlook and Exchange ActiveSync(EAS)移動設(shè)備的影響很小。”
此外,對Service Health Dashboard的訪問也受到波及。即使是微軟已經(jīng)提供了備份“Emergency Broadcast System”(EBS),歐洲地區(qū)的用戶由于EBS故障也無法看到該頁的更新。
歸根結(jié)底,12月3號的服務(wù)中斷故障是一個登錄/身份認(rèn)證的問題。這家軟件公司表示,原因是雙重的:
“1.最近的更新暴露了一個在生產(chǎn)和生產(chǎn)前認(rèn)證基礎(chǔ)架構(gòu)之前的配置問題。這導(dǎo)致了一些請求被錯誤地路由,并在Azure Active Directory(AAD)前端造成了身份驗證請求的積壓。
2.被錯誤路由的認(rèn)證請求積壓在AAD引發(fā)了連鎖反應(yīng),從而導(dǎo)致系統(tǒng)資源使用率居高不下,進(jìn)一步加劇了這一問題,而當(dāng)時的通信流量隨著歐洲地區(qū)正常工作時間的到來出現(xiàn)了增長。這就導(dǎo)致歐洲數(shù)據(jù)中心(European Data Centers)出現(xiàn)了間歇性的身份認(rèn)證請求失敗,并導(dǎo)致AAD身份認(rèn)證服務(wù)失敗,從而影響到了Office 365服務(wù)。”
微軟防止類似問題再次出現(xiàn)的下一步舉措是什么?
這份報告稱,該公司計劃增加附加的故障注入技術(shù)以改善測試程序以及額外回退機(jī)制以允許使用舊版本的身份認(rèn)證服務(wù)。
該報告補(bǔ)充表示,為了防止由于高CPU使用率可能造成的錯誤路由請求,微軟計劃增加更多的過載監(jiān)測和恢復(fù)機(jī)制,提高服務(wù)終端和過載故障之間的隔離度。
由于不正確的內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)鏈接讓用戶無法看到http://status.office.com上的更新,微軟計劃在Office 365門戶的訪問受到影響的時候檢查其切換選項。
微軟的報告列出了所有這些步驟完成的截止日期——“2015年12月”。
我問過微軟的官員,在12月3日受到影響的用戶是否會以某種方式得到補(bǔ)償,被告知該公司無可奉告。
我也很好奇,為什么微軟會把這個故障分析報告作為面板報告而不是公開發(fā)布在博客中,就像之前Office 365和Azure出現(xiàn)故障時那樣。再一次,該公司表示無可奉告。