本周早些時候亞馬遜的 Web Services 出現了嚴重的服務中斷問題,導致多個在線服務掉線,包括蘋果的 iCloud 平臺。日前亞馬遜已經發布了一篇博客,說明了為何會出現本次服務中斷問題,指出因為人為操作失誤而導致這個問題。
亞馬遜在博客中表示,Simple Storage Service 團隊當時正在調試以排除導致S3支付平臺運行速度放慢的故障。在這個過程中,S3團隊的某位成員執行了錯誤的指令,刪除了一大組服務器,數量遠超于本該刪除的服務器數量。
亞馬遜表示,S3 子系統支持在不對客戶產生影響的情況下,刪除大量服務器或者使服務器失效,但是因為近幾年數量的暴漲,所以重啟服務器以及運行安全檢查的過程需要的時間比預期的要長。
為了避免此類情況再次發生,亞馬遜已經更改子集,放慢刪除服務器數量的速度,采取更多安全措施來執行檢查,加速重啟和運行檢查的時間。亞馬遜還對子系統進行重新分區,讓每一個分區變得更小,縮短恢復時間。
本次亞馬遜 Web Services 服務中斷產生了不小的影響,受影響地區主要在美國東部。蘋果部分基于 AWS 的 iCloud 服務也首次影響。亞馬遜在博客的最后對本次出現的問題表示道歉。