越來越多的互聯(lián)網站點開始依托于亞馬遜 AWS 等云平臺,盡管其品牌影響力和可靠性比許多中小型主機托管服務商要高一些,但這并不意味著能夠 100% 避免不宕機。幾天前,亞馬遜 Web 服務就遭遇了一場部分停擺的尷尬,許多互聯(lián)網站點都受這波故障的影響而離線。而根據(jù)亞馬遜剛剛發(fā)布的詳情報告,事情可能需要歸咎于某個員工從 S3 子系統(tǒng)中,向一臺遠程服務器輸入了一個“常規(guī)命令”。
不幸的是,員工輸入了一個比預想的要大得多的數(shù)字。命令影響到了另外兩個 S3 子系統(tǒng)上的服務器,而后者分管著全區(qū)的存儲和元數(shù)據(jù) —— 事情就此變得一發(fā)而不可收拾。
報告解釋到:
一名 S3 團隊的授權成員,用一個既定的腳本執(zhí)行了一個命令。
他原本是想將(通過 S3 計費處理的)一小部分服務器從某個 S3 子系統(tǒng)中移除,卻不慎輸入了一個不正確的指令,結果移除了一大票比預期更大數(shù)量的服務器。
無意中刪除的服務器位于兩個其它 S3 子系統(tǒng)中,其中一個是索引子系統(tǒng),管理者元數(shù)據(jù)和全區(qū)所有 S3 對象的定位信息。