導致故障的原因從停電到錯誤軟件更新,從服務器過載到數據庫錯誤,不一而足。更多的時候,我們永遠不會知道服務故障的真正性質和影響范圍。下面是2016年上半年占據了新聞頭條的一些云服務故障事件。
隨著企業將越來越多的關鍵工作負載遷移到生產云環境之中,供應商服務僅僅幾分鐘的宕機都可能會極大地影響企業的利潤,損害企業與客戶的關系,并導致IT管理員處境艱難。
但是,雖然全球經濟越來越多地依賴于云服務供應商,特別是那些超大規模的供應商,保障服務正常運行時間以及維護服務的能力,服務中斷仍然很常見。
導致故障的原因從停電到錯誤軟件更新,從服務器過載到數據庫錯誤,不一而足。更多的時候,我們永遠不會知道服務故障的真正性質和影響范圍。
下面是2016年上半年占據了新聞頭條的一些云服務故障事件。
Verizon,1月14日
1月14日,Verizon數據中心的一次停電影響了JetBlue Airways的運營,造成了很多航班的延遲,讓大量的乘客爭先恐后地重新預訂機票。
Verizon并沒有說是哪一個數據中心遭遇了停電。
總部位于紐約的JetBlue在一篇博客文章中寫道,由于Verizon的一個數據中心的停電,JetBlue遭遇了網絡問題,影響到了包括jetblue.com、移動應用程序、免費電話、登機及機場柜臺/門系統在內的客戶支持系統。
Twitter,1月19日
1月19日上午,社交信息巨頭Twitter在上載了一些錯誤代碼之后,出現了全球性的問題。
內部軟件更新導致網絡和移動應用程序出現故障,故障持續了非常長的時間,最初報告的消息是在太平洋時間上午2點之前,而大約八個小時之后,Twitter確認系統才進行了備份,并且開始運行。
對于很多Twitter用戶來說,這八個小時簡直長如永恒。
Microsoft Office 365,1月18日
一些Office 365用戶從1月18日開始,不得不和自己基于云的電子郵件賬戶分離了好幾天。
微軟將故障歸咎于一次錯誤的軟件更新,但是其初次修復的嘗試并沒有解決問題,在最初的故障出現五天之后,第二次電子郵件故障又爆發了,這一次激怒了很多用戶。
云生產力套件的電子郵件服務故障在某些情況下持續的時間超過了一周。微軟承認,盡管不是所有的Office 365用戶都遇到了服務中斷的問題,但是這個問題還是影響了一大批用戶。
微軟最終報告稱其工程師確定了幾個處理電子郵件路由和過濾的基礎架構組件由于資源使用過度出現了退化,這份聲明在該故障首次出現一個多星期之后才姍姍來遲。
Microsoft Office 365,2月22日
微軟在歐洲的一些客戶在2月22日遇到了用手機無法訪問電子郵件的問題,或者在嘗試通過網絡門戶登錄Office 365服務的時候出現了延遲的問題,在幾個小時的時間里,該問題間歇性地影響了用戶使用。
微軟將這個問題歸咎于對云資源的需求過大。與之類似,Office 365在去年12月的宕機影響了歐洲用戶使用電子郵件和其他服務,但是那一次故障的影響面更廣。
Salesforce,3月3日
Salesforce一些歐洲客戶不得不應對CRM服務中斷10小時的問題,這次故障是由于該大陸上一個實例中出現了一個存儲問題。
即使重新連接上了存儲層,仍然有一些功能無法正常運行,Salesforce繼續報告其EU2實例的性能也出現了下降。
Symantec Cloud,4月11日
Symantec的一個門戶讓客戶能夠管理他們基于云的安全服務,該服務從東部時間4月11日上午6點開始中斷了大約24小時。
在工程師們忙于恢復并配置讓Symantec.cloud重新聯網所必需的數據庫的一整天時間里,這家安全廠商的狀態頁面上如雨后春筍一般冒出了很多對用戶的道歉。
服務中斷讓Symantec的客戶無法管理一些電子郵件和網絡安全服務,但是Symantec堅持表示那些保護層仍然在發揮作用,保障自身決不受到損害。
Google Cloud Platform,4月11日
Google Cloud Platform在4月11日傍晚出現了大約18分鐘的中斷,影響了其所有地區的Compute Engine實例和VPN服務。
谷歌為受到影響的客戶補償了10%的Google Compute Engine月服務費,以及25%的VPN月服務費。
Salesforce,5月10日
5月10日,Salesforce.com的一個故障持續了四個小時,影響了數據客戶進入他們的CRM,Salesforce花了幾天的時間才完成補救工作。
雖然首席執行官Marc Benioff在Twitter上親自對一位用戶道歉,Salesforce還是拒絕透露這次故障波及的范圍有多廣,或者哪些區域或服務受到了此次和NA14——Salesforce在北美地區45個云實例之一——有關的數據庫故障的影響。
Salesforce的系統狀態網頁表示性能下降是從東部時間上午8:41分開始的,在不到一個小時之后,也就是上午9:31分出現了“服務中斷。”
蘋果公司,6月2日
蘋果公司的云在6月2日出現了一次大面積的服務中斷,讓蘋果的一些最受歡迎的零售和備份服務出現了中斷。
這次故障大約是從太平洋時間下午12:30分開始的,客戶無法訪問多個iCloud和App Store服務。
App Store、Apple TV App Store以及Mac App Store、iTunes以及蘋果基于云的相片服務都出現了中斷。
Amazon Web Services,6月4日
6月4日,一場風暴襲擊了澳大利亞悉尼,這個區域內的Amazon Web Services失去了能源供應,為一些名牌企業托管在EC2實例和EBS卷上的關鍵工作負載隨即中斷。
在那個周末,澳大利亞地區AWS的網站和在線服務中斷了大約10個小時,破壞了從銀行服務到披薩餅外送的所有事情。
受到影響的企業客戶在世界最大的云供應商努力恢復服務的時候指責之聲四起。
Pokémon Go,7月
好吧,這并不是企業關注的事,甚至也不是出現在上半年,但是考慮到谷歌在Niantic推出的這款游戲引發的狂熱,在此提一提也是很有意思的。
自從Pokémon Go在7月6日推出之后,多次的服務中斷已經影響到了玩家,有些時候他們在狩獵怪物的時候會失去連接。
空前的訪問量以及黑客們發起的分布式拒絕服務攻擊推遲了該游戲在歐洲的上市,開發人員正在努力處理“被淹沒的”服務器。