上周,亞馬遜在都柏林數據中心遭雷擊,當時亞馬遜表示數據中心需要10天左右時間來維修。本周,亞馬遜發布了一份詳細的事故報告。
為什么發電機無法啟動
一般來說,當市電中斷時,數據中心會無縫啟用備用發電機。可編程邏輯控制器(PLC)能夠實現發電機與供電系統的同步。在這種情況下,其中一個PLC沒有完成與發電機連接。目前,亞馬遜觀測了該PLC的狀態和行為,主要原因是PLC的接地故障導致它沒有正常工作。“我們正在與供應商,并進行進一步分析,以確認所涉及的設備。”亞馬遜表示,將增加更多的冗余和其PLC的隔離,并與供應商的工作添加一個備份的PLC。
管理軟件存在的問題
在一些情況下,軟件程序會管理復雜的復蘇過程。第一次停電后不久。“管理服務器接收請求,要求繼續管理受影響區域。但由于在受影響的可用性區域管理服務器無法訪問,路由到這些服務器的請求失敗。其次,在管理服務器接收到請求,但這些請求開始大量的排隊。“我們重載管理服務器接收請求,等待這些排隊的請求完成。這兩個因素的結合,導致長時間的延時和更高的錯誤發生。”
EBS軟件的問題
在停機中,受影響最嚴重是亞馬遜的彈性塊存儲(EBS)。軟件錯誤檢測到停電前,在恢復過程中產生了諸多問題。