sidekick的嚴重事故
SIDEKICK這次事故非常的嚴重,在2009年的那個冬天,微軟擁有的SIDEKICK服務中斷了一個星期,用戶不能訪問自己的郵箱,日歷還有其他個人數據,更為嚴重的是這個錯誤持續了一個星期。微軟隨后承認這些數據無法恢復,因為技術人員忘記了備份,隨著時間的發展,忘記備份這樣的低級錯誤應該不會再發生,但這個教訓是嚴重的,無論你是否使用的是云儲存,都需要備份自己的數據。就像AlertSite公司負責監視產品的副總裁KenGodskind說的那樣,使用云的機構不能僅僅假設因為它是在云中,業務持續性計劃的全部責任已經交給了提供商。
Gmail的故障
Gmail這次的錯誤和每個人都息息相關,有十五萬用戶在登陸自己的GMAIL賬號之后,看到的是一個空白頁,用戶們頓時暈眩了,谷歌修復這個故障的時候用了四天時間,谷歌負責工程的副總裁BenTreynor當時在博客中稱,如果有你的數據的多個副本,怎么會發生這樣的事情?在很少出現的情況下,軟件瑕疵能夠影響幾份數據。那就是這里發生的事情。
值得慶幸的是谷歌改用物理磁帶備份以便恢復數據。最終,谷歌的多層數據保護確實發揮了作用,但是,仍有數千用戶在后來的幾天時間里無法訪問其電子郵件。AlertSite公司的KenGodskind稱,當你查看廣泛的平均狀況時,云的運行成功率遠遠高于你個人的運行成功率。這只是當你進入到Web規模時,故障的影響以更大的方式放大了。
Hotmail的故障
說完了谷歌,改論道Hotmail了,那是2010年年底,微軟的Hotmail出現了數據庫錯誤,這次事故導致數萬個郵箱賬戶被清空,微軟表示這是一個腳本錯誤造成的,他們為了創建一個刪除虛擬賬戶的腳本嗎,錯誤的刪除了一萬七千個真實賬戶。微軟花了三天時間恢復了絕大多數的數據,但仍有將近8%的用戶無法訪問,最后完全恢復,大約花了一周的時間。微軟有時候也會出很可笑的錯誤,這個解釋似乎不是很能令人信服,用戶當然也不會得到任何賠償。。
Intuit兩次宕機
Intuit的事故更具有典型性,這次事故深刻的反應了云計算服務器潛在的嚴重威脅,甚至是不可抗拒的。
Intuit去年遭遇一次嚴重故障。它的基于云連接的服務,包括TurboTax、Quicken和QuickBooks等流行的平臺在一個月內發生兩次斷網事故。最最糟糕的一次是去年6月的一次36小時斷網事故。一次電源故障顯然導致主要設備使用備用電源,該公司主要的和備份的系統完全斷網。
更糟糕的是,幾個星期之后,又發生了一次明顯的電源故障。此外,第二次中斷顯然引起了人們的大罵。
一個用戶當時在微博中稱,25小時的斷網是很難忍受的。Intuit的被動的、不透明的和無法接受的溝通沒有幫助。
PayPal斷網故
2009年夏季PayPal的斷網故障是真的,讓全球數百萬臺機器無法銷售商品。這項服務在大約一個小時的時間里完全不可用,在后來的幾個小時里仍是斷斷續續的。PayPal稱,硬件故障是事故的原因。
毫無疑問,這種中斷故障是很少發生的。但是,這個不幸的斷網故障使PayPal輕松在云計算的恥辱堂上贏得一個位置。
微軟商務辦公在線套件故障
當你的基于云的辦公套件出現故障時,那是很難有辦公效率的。那是幾個星期前依賴微軟商務云服務的機構發生的事情。微軟BPOS服務開始出現斷斷續續地工作的情況。一些用戶的電子郵件因此延遲了9個小時才收到。
兩天后,就在BPOS好像排除了故障的時候,延遲的現象又發生了,向外發出的信息也阻塞了。如果這個事故還不夠的話,微軟還經歷了另一個故障,阻止用戶登錄基于Web的Outlook門戶網站。
微軟在線服務部門副總裁在博客中稱,我要因為這個故障引起的這些不便向你們、我們的客戶和合作伙伴表示道歉。
Salesforce服務中斷
一個小時的斷網故障聽起來也許不嚴重。但是,如果你的公司擁有數萬家企業客戶服務業務的關鍵,許多這樣的機構肯定要把這60分鐘看作是生命期。
當去年1月數據中心關閉的時候,Salesforce.com吸取了深刻的教訓。在進入新的一年剛剛四天的時候,Salesforce.com報告了一次全面的故障,也就是說服務、備份等全套服務都中斷了。
柯尼卡美能達的子公司AllCovered的首席信息官TimCrawford稱,現實是基于云的數據中心也中斷了。那一直是故障的原因并且總是這種情況。我們對此必須現實一些。
Crawford稱,成功的云計算需要一個與傳統的服務器設置不同的思維方式。你要自己決定你的企業的數據是否能夠承受偶爾的斷網。如果不能承受,你要保證你的配置有避開斷網故障所需要的彈性。
當你選擇一個云提供商的時候,你需要做家庭作業以理解他們如何提供這些服務,他們是否能夠建立比你自己做的還要好的冗余水平。如果答案是否定的,那么,你為什么要使用這些云提供商呢?
Rackspace宕機事故
Rackspace在在2009年全年遭遇了四次引人矚目的斷網故障,使該公司的客戶的斷網時間達到幾個小時。Rackspace不得不向用戶賠償了將近300萬美元的服務費。
Rackspace把這些事故稱作“痛苦的和非常令人失望的”并且承諾以后在很長時間里都要高水平地提供服務。目前,該公司繼續把重點放在運行時間方面,但是還幫助用戶制定計劃準備應對在云服務中不可避免地出現的混亂局面。
云提供商Terremark嚴重事故
最近,Terremark與Verizon之間的10億美元的交易也許成為了重要新聞。但是,在2010年年初,主要報道的新聞是Terremark的斷網事故。
在2010年3月17日Terremark公司的vCloudExpress服務在那一天急轉直下,在邁阿密的數據中心斷網了大約7個小時。在這段時間里,用戶不能訪問存儲在這個數據中心的數據。
沒有得到更多的冗余。但是,這帶來的冗余的價值,讓你的重要數據提供到不同數據中心的多臺服務器,或者最好是提供到不同地區的多臺服務器。作為一種故障保險,你還可以采取額外的步驟把數據分散到不同的提供者。
亞馬遜Web服務中斷
乏味的網絡維護工作是令人討厭的,但在操作系統還并不是非常成熟的前提下,貿然使用啟動會維護有很高的風險,典型性設置和通用性設置的具體參數,都不為用戶所熟知,一旦發生故障,用戶立即會變得束手無措,因為他根本不知道那操作平臺背后究竟隱藏著什么。亞馬遜最嚴重的一次故障,在亞馬遜美國北弗吉尼亞數據中心,發生了嚴重的故障,這個錯誤是一個錯誤的路線的有通訊移動,吧一連串的亞馬遜EBS通訊量發送到了一個新的鏡像,這種反?,F象造成了美國亞馬遜在東部地區的服務大規模中斷,更可怕的是這個錯誤持續了四天未修復。很多企業因此迅速陷入了困境之中,造成了嚴重的損失。