當(dāng)前位置：數(shù)據(jù)中心 → 企業(yè)動態(tài) → 正文

因誤開IDC滅火器，導(dǎo)致Azure在歐洲罷工超過7小時！

責(zé)任編輯：editor005 |來源：企業(yè)網(wǎng)D1Net 2017-10-09 14:23:50 本文摘自：數(shù)據(jù)中心運維管理

微軟近日解釋了一連串故障事件導(dǎo)致北歐的一些Azure客戶在近7個小時的時間內(nèi)無法訪問其服務(wù)。

影響概述：2017年9月29日協(xié)調(diào)世界時（UTC）13：27至20：15，由于一個存儲可擴展單元（storage scale unit）無法正常使用，北歐的一部分客戶在連接或管理該地區(qū)托管的資源方面遇到了困難。依賴該地區(qū)受影響的存儲資源、因此受拖累的服務(wù)包括：虛擬機、云服務(wù)、Azure Backup、App ServicesWeb Apps、Azure Cache、Azure Monitor、Azure Functions、Time Series Insights、Stream Analytics、HDInsight、Data Factory、Azure Scheduler以及Azure Site Recovery。

客戶影響：一部分存儲資源不可用，這導(dǎo)致相關(guān)的虛擬機關(guān)閉，以確保數(shù)據(jù)持久性。一些Azure Backup保管庫在故障持續(xù)的這段時間內(nèi)不可用，從而導(dǎo)致備份和恢復(fù)操作失敗。Azure Site Recovery可能無法故障切換到最新的恢復(fù)點或無法復(fù)制虛擬機。HDInsight、Azure Scheduler和Azure Functions可能遇到了服務(wù)管理和作業(yè)故障，資源無不依賴受影響的存儲可擴展單元。Azure Monitor和Data Factory遇到了依賴這個可擴展單元的管道方面的延遲和錯誤。Azure Stream Analytics作業(yè)停止處理輸入及/或生成輸出持續(xù)了幾分鐘。Azure Media Services的數(shù)據(jù)流請求、上傳和編碼出現(xiàn)了故障和延遲。

解決方法：將虛擬機部署到配備托管磁盤的可用性集（Availability Sets）提供了彈性，可以為基于虛擬機的工作負(fù)載防范重大的服務(wù)影響。

根本原因和緩解方法：在一次常規(guī)的定期滅火系統(tǒng)維護期間，發(fā)生了意外釋放惰性滅火劑的情況。滅火機制被觸發(fā)后，它開始自動關(guān)閉空氣處理單元（AHU），這是為火勢控制和安全設(shè)計的系統(tǒng)。雖然數(shù)據(jù)中心里面的情況得到了重新確認(rèn)，AHU也重新啟動，但受影響滅火區(qū)的隔離區(qū)的環(huán)境溫度還是高于正常的運行參數(shù)。由于受到內(nèi)部散熱監(jiān)測機制的觸發(fā)，受影響區(qū)域的一些系統(tǒng)自動關(guān)閉或重新啟動，防止這些系統(tǒng)過熱。觸發(fā)惰性滅火劑滅火在第一時間就知道了，在隨后的35分鐘內(nèi)，所有AHU恢復(fù)正常，環(huán)境溫度恢復(fù)到了正常的運行水平。數(shù)據(jù)中心設(shè)施的電源在這次事件中沒有受到影響。所有系統(tǒng)已恢復(fù)到完全正常的運行狀態(tài)，在調(diào)查意外釋放惰性滅火劑期間，進一步的系統(tǒng)維護已被暫停。由于上述事件的性質(zhì)以及受影響滅火區(qū)的隔離區(qū)域的散熱情況方面的差異，一些服務(wù)器和存儲資源沒有以一種受控的方式關(guān)閉。因此，需要另外的時間來排查故障，并恢復(fù)受影響的資源。一旦可擴展單元達(dá)到了所需的運行節(jié)點數(shù)量，客戶就看到情況得到逐漸而穩(wěn)步的改善，直到20：15 UTC完全解決了故障，這時存儲和相關(guān)服務(wù)都已完全恢復(fù)過來。

后續(xù)步驟：我們對于給受影響的客戶帶來的影響深表歉意。我們在不斷采取措施改進微軟Azure平臺和我們幫助確保此類事件將來不會發(fā)生的流程。在這里，這包括（但不僅限于）：滅火系統(tǒng)維護分析繼續(xù)開展，設(shè)備工程師查明意外釋放惰性滅火劑的原因，并且減小再次發(fā)生的風(fēng)險。針對這種場景下的存儲資源，工程團隊繼續(xù)調(diào)查故障情況和恢復(fù)時間方面的改進。隨著重要的調(diào)查和分析工作深入開展下去，我們會在10月13日周五之前發(fā)布該RCA的補充信息。

關(guān)鍵字：Azure IDC 維護分析