微軟近日解釋了一連串故障事件導(dǎo)致北歐的一些Azure客戶在近7個小時的時間內(nèi)無法訪問其服務(wù)。
影響概述:2017年9月29日協(xié)調(diào)世界時(UTC)13:27至20:15,由于一個存儲可擴展單元(storage scale unit)無法正常使用,北歐的一部分客戶在連接或管理該地區(qū)托管的資源方面遇到了困難。依賴該地區(qū)受影響的存儲資源、因此受拖累的服務(wù)包括:虛擬機、云服務(wù)、Azure Backup、App ServicesWeb Apps、Azure Cache、Azure Monitor、Azure Functions、Time Series Insights、Stream Analytics、HDInsight、Data Factory、Azure Scheduler以及Azure Site Recovery。
客戶影響:一部分存儲資源不可用,這導(dǎo)致相關(guān)的虛擬機關(guān)閉,以確保數(shù)據(jù)持久性。一些Azure Backup保管庫在故障持續(xù)的這段時間內(nèi)不可用,從而導(dǎo)致備份和恢復(fù)操作失敗。Azure Site Recovery可能無法故障切換到最新的恢復(fù)點或無法復(fù)制虛擬機。HDInsight、Azure Scheduler和Azure Functions可能遇到了服務(wù)管理和作業(yè)故障,資源無不依賴受影響的存儲可擴展單元。Azure Monitor和Data Factory遇到了依賴這個可擴展單元的管道方面的延遲和錯誤。Azure Stream Analytics作業(yè)停止處理輸入及/或生成輸出持續(xù)了幾分鐘。Azure Media Services的數(shù)據(jù)流請求、上傳和編碼出現(xiàn)了故障和延遲。
解決方法:將虛擬機部署到配備托管磁盤的可用性集(Availability Sets)提供了彈性,可以為基于虛擬機的工作負(fù)載防范重大的服務(wù)影響。
根本原因和緩解方法:在一次常規(guī)的定期滅火系統(tǒng)維護期間,發(fā)生了意外釋放惰性滅火劑的情況。滅火機制被觸發(fā)后,它開始自動關(guān)閉空氣處理單元(AHU),這是為火勢控制和安全設(shè)計的系統(tǒng)。雖然數(shù)據(jù)中心里面的情況得到了重新確認(rèn),AHU也重新啟動,但受影響滅火區(qū)的隔離區(qū)的環(huán)境溫度還是高于正常的運行參數(shù)。由于受到內(nèi)部散熱監(jiān)測機制的觸發(fā),受影響區(qū)域的一些系統(tǒng)自動關(guān)閉或重新啟動,防止這些系統(tǒng)過熱。觸發(fā)惰性滅火劑滅火在第一時間就知道了,在隨后的35分鐘內(nèi),所有AHU恢復(fù)正常,環(huán)境溫度恢復(fù)到了正常的運行水平。數(shù)據(jù)中心設(shè)施的電源在這次事件中沒有受到影響。所有系統(tǒng)已恢復(fù)到完全正常的運行狀態(tài),在調(diào)查意外釋放惰性滅火劑期間,進一步的系統(tǒng)維護已被暫停。由于上述事件的性質(zhì)以及受影響滅火區(qū)的隔離區(qū)域的散熱情況方面的差異,一些服務(wù)器和存儲資源沒有以一種受控的方式關(guān)閉。因此,需要另外的時間來排查故障,并恢復(fù)受影響的資源。一旦可擴展單元達(dá)到了所需的運行節(jié)點數(shù)量,客戶就看到情況得到逐漸而穩(wěn)步的改善,直到20:15 UTC完全解決了故障,這時存儲和相關(guān)服務(wù)都已完全恢復(fù)過來。
后續(xù)步驟:我們對于給受影響的客戶帶來的影響深表歉意。我們在不斷采取措施改進微軟Azure平臺和我們幫助確保此類事件將來不會發(fā)生的流程。在這里,這包括(但不僅限于):滅火系統(tǒng)維護分析繼續(xù)開展,設(shè)備工程師查明意外釋放惰性滅火劑的原因,并且減小再次發(fā)生的風(fēng)險。針對這種場景下的存儲資源,工程團隊繼續(xù)調(diào)查故障情況和恢復(fù)時間方面的改進。隨著重要的調(diào)查和分析工作深入開展下去,我們會在10月13日周五之前發(fā)布該RCA的補充信息。