美國時間2月28日上午9:54分,知乎網友“十六樓的老民工”剛喝完早上第一杯咖啡,突然發現之前在電腦上下達的部署指令并未完成,S3云服務出錯了。他任職的那所舊金山公司,是亞馬遜云的大客戶。隨即,他從AWS技術服務人員那端確認了S3出故障的消息。
S3是亞馬遜提供的一款明星級的存儲桶產品,通俗地講,可用于圖片及網頁上其他項目的保存備份,同時可以在服務器和靜態網站里共享文檔。由其的引發的故障,迅速在美國各類新聞網站、應用程序和智能硬件公司的身上爆發,Quora、Netflix、Airbnb 、Slack、Nest、Runkeeper以及亞馬遜的智能家居操作系統Alexa等等,都因此出現了不同程度的服務中斷。
大約十幾分鐘后,“十六樓的老民工”就意識到,盡管云計算廠商的服務故障或宕機時有發生,但這次事故的嚴重程度足以上新聞。“我原以為AWS很可靠了,S3一般很穩定,上一次這么大規模的(事故)還是2012年圣誕節的時候。”
在行業內人士眼中,亞馬遜提供的云服務產品非常穩定,S3此前從未出現嚴重故障,公司的運維能力也很強,通常出現問題一小時內就能解決。但在那一天接下來的四個小時里,亞馬遜卻經歷了漫長的尷尬。
關于事故的影響范疇,SimilarTech營銷總監丹尼爾·巴楚科估算稱:“在互聯網最大的網站中,有1%使用S3。而根據他所在的機構提供的數據,S3被近15萬家網站使用,包括ESPN和AOL等。
不過這次事故對中國企業并未造成太大波及。36氪聯系了有米科技、侯斯特、天天果園、OPPO等多家亞馬遜云的中國客戶,尚未發現服務受影響的案例。
“亞馬遜在全球有多個數據中心,這次僅僅是是美國東部的弗吉尼亞州數據中心出了故障,不是全球性故障。這個中心靠近美國東部,一般美國人才會采用,中國國內使用的話訪問速度很慢,所以估計國內用戶用的很少。”有米科技CTO蔡銳濤說。
另外,這次事故發生的時間是亞太區的夜晚,大洋彼岸的企業也躲過一劫。
S3停擺將給亞馬遜造成多大的經濟損失?Gartner調研總監張毅表示,云計算廠商的賠付協議通常會規定一個用時間衡量的可用性。舉例而言,根據企業與云計算廠商簽訂的SLA(service level agreement),當某企業要求可用性為99.95%,意味著每年365天中必須有99.95%的時間正常運轉,而牽涉到特別重要的客戶或關鍵任務,比如電商客戶,可能要保證99.99%的有效服務時間。如果停擺時間超過0.05%或0.01%,通常會以更多免費服務時間作為賠償。
在2013年亞馬遜發生的一次服務器故障中,曾有媒體估算亞馬遜每秒的損失約為1100美元。
美國時間14:08,亞馬遜宣布S3已恢復正常,災難停止了。
這場風波留給人們提的醒是,在購買云計算服務時要提前設計好一套Plan B。
Commvault 亞太區企業解決方案架構師李可表示,“各種系統部件的故障和情況都有可能發生,一定要從公司的業務需要出發,來制定數據恢復保護和系統容災的方案規劃,來根據這個去評估自身所能承受的損失的數據量和時間點,然后根據這個來制定數據恢復和容災方案,來制定混合云等方案。”
不過設計出什么樣的備災方案需要權衡風險與成本。
“你可以在AWS上再設計一套備災方案,比如可以在us east和us west間切換。不過這不容易,也有額外費用。”“十六樓的老民工”說。但這次S3事故前,很多企業并沒有做類似方案設計,原因在于S3此前顯示出具有很強的穩定性,在人們觀念中為一份低風險的東西買保險,總認為不夠劃算。
另一種方式是自建網站,滿足自己的可用性。“你要用兩套系統,但架構開發時間、人手、推向市場的時間都是金錢。所以也有的企業寧愿掛掉五個小時。也有的公司使用云服務只是作為長期存儲,不會每天看,事故發生了只會影響數據調用。這些都要自己去計算權衡。”Gartner調研總監張毅告訴36氪。
網頁、電郵中的圖像和附件看不到、各種APP數據上傳受阻、智能硬件因為無法調取提供服務所需的數據瞬間倒退成老式電器……S3的故障讓很多人恍然大悟,自己的整個生活已經被搬上了云端。一家云計算服務商的停擺,甚至有足夠的力量中斷互聯網世界的運行,特別是當這家公司是亞馬遜。根據市場研究公司Synergy Research Group去年發布的第三季度數據,亞馬遜云服務在全球IaaS(基礎設施服務)公開市場的份額已經上升至45%。
“但云計算就是填坑填出來的,只有出現事故,才能發現系統設計和流程上的不足,加以改進。很多東西不是靠紙面上能解決的。S3已經是很穩定的服務,今天的事故又一次告訴我們,革命尚未成功,同志仍需努力。”“十六樓的老民工”說。
(36氪記者徐濤對此文亦有貢獻)
文| 孫然 盧曉明
美國時間2月28日上午9:54分,知乎網友“十六樓的老民工”剛喝完早上第一杯咖啡,突然發現之前在電腦上下達的部署指令并未完成,S3云服務出錯了。他任職的那所舊金山公司,是亞馬遜云的大客戶。隨即,他從AWS技術服務人員那端確認了S3出故障的消息。
S3是亞馬遜提供的一款明星級的存儲桶產品,通俗地講,可用于圖片及網頁上其他項目的保存備份,同時可以在服務器和靜態網站里共享文檔。由其的引發的故障,迅速在美國各類新聞網站、應用程序和智能硬件公司的身上爆發,Quora、Netflix、Airbnb 、Slack、Nest、Runkeeper以及亞馬遜的智能家居操作系統Alexa等等,都因此出現了不同程度的服務中斷。
大約十幾分鐘后,“十六樓的老民工”就意識到,盡管云計算廠商的服務故障或宕機時有發生,但這次事故的嚴重程度足以上新聞。“我原以為AWS很可靠了,S3一般很穩定,上一次這么大規模的(事故)還是2012年圣誕節的時候。”
在行業內人士眼中,亞馬遜提供的云服務產品非常穩定,S3此前從未出現嚴重故障,公司的運維能力也很強,通常出現問題一小時內就能解決。但在那一天接下來的四個小時里,亞馬遜卻經歷了漫長的尷尬。
關于事故的影響范疇,SimilarTech營銷總監丹尼爾·巴楚科估算稱:“在互聯網最大的網站中,有1%使用S3。而根據他所在的機構提供的數據,S3被近15萬家網站使用,包括ESPN和AOL等。
不過這次事故對中國企業并未造成太大波及。36氪聯系了有米科技、侯斯特、天天果園、OPPO等多家亞馬遜云的中國客戶,尚未發現服務受影響的案例。
“亞馬遜在全球有多個數據中心,這次僅僅是是美國東部的弗吉尼亞州數據中心出了故障,不是全球性故障。這個中心靠近美國東部,一般美國人才會采用,中國國內使用的話訪問速度很慢,所以估計國內用戶用的很少。”有米科技CTO蔡銳濤說。
另外,這次事故發生的時間是亞太區的夜晚,大洋彼岸的企業也躲過一劫。
S3停擺將給亞馬遜造成多大的經濟損失?Gartner調研總監張毅表示,云計算廠商的賠付協議通常會規定一個用時間衡量的可用性。舉例而言,根據企業與云計算廠商簽訂的SLA(service level agreement),當某企業要求可用性為99.95%,意味著每年365天中必須有99.95%的時間正常運轉,而牽涉到特別重要的客戶或關鍵任務,比如電商客戶,可能要保證99.99%的有效服務時間。如果停擺時間超過0.05%或0.01%,通常會以更多免費服務時間作為賠償。
在2013年亞馬遜發生的一次服務器故障中,曾有媒體估算亞馬遜每秒的損失約為1100美元。
美國時間14:08,亞馬遜宣布S3已恢復正常,災難停止了。
這場風波留給人們提的醒是,在購買云計算服務時要提前設計好一套Plan B。
Commvault 亞太區企業解決方案架構師李可表示,“各種系統部件的故障和情況都有可能發生,一定要從公司的業務需要出發,來制定數據恢復保護和系統容災的方案規劃,來根據這個去評估自身所能承受的損失的數據量和時間點,然后根據這個來制定數據恢復和容災方案,來制定混合云等方案。”
不過設計出什么樣的備災方案需要權衡風險與成本。
“你可以在AWS上再設計一套備災方案,比如可以在us east和us west間切換。不過這不容易,也有額外費用。”“十六樓的老民工”說。但這次S3事故前,很多企業并沒有做類似方案設計,原因在于S3此前顯示出具有很強的穩定性,在人們觀念中為一份低風險的東西買保險,總認為不夠劃算。
另一種方式是自建網站,滿足自己的可用性。“你要用兩套系統,但架構開發時間、人手、推向市場的時間都是金錢。所以也有的企業寧愿掛掉五個小時。也有的公司使用云服務只是作為長期存儲,不會每天看,事故發生了只會影響數據調用。這些都要自己去計算權衡。”Gartner調研總監張毅告訴36氪。
網頁、電郵中的圖像和附件看不到、各種APP數據上傳受阻、智能硬件因為無法調取提供服務所需的數據瞬間倒退成老式電器……S3的故障讓很多人恍然大悟,自己的整個生活已經被搬上了云端。一家云計算服務商的停擺,甚至有足夠的力量中斷互聯網世界的運行,特別是當這家公司是亞馬遜。根據市場研究公司Synergy Research Group去年發布的第三季度數據,亞馬遜云服務在全球IaaS(基礎設施服務)公開市場的份額已經上升至45%。
“但云計算就是填坑填出來的,只有出現事故,才能發現系統設計和流程上的不足,加以改進。很多東西不是靠紙面上能解決的。S3已經是很穩定的服務,今天的事故又一次告訴我們,革命尚未成功,同志仍需努力。”“十六樓的老民工”說。
(36氪記者徐濤對此文亦有貢獻)