隨著云提供商不斷積累運營經驗和技術的日益成熟,云故障的頻率和持續時間都在減少。
這是個好消息。但另一方面,企業卻在面對宕機的時候變得越來越脆弱。隨著現代化應用和數據源變得越來越分散,我們對它們來管理日常生活方方面面的依賴性也越來越高,潛在的危害,或者強烈的挫折感,變得比以往任何時候都更大。
在接近年底的時候,DNS提供商Dyn遭受的故障表明,嚴重的漏洞可能會導致日益連接的世界癱瘓。
Verizon:1月14日
1月14日,Verizon數據中心斷電影響到JetBlue航空公司的運營,導致數個航班延誤,讓許多乘客不得不重新預定。
Verizon并沒有說哪個數據中心遭受了斷電故障。
位于紐約的JetBlue公司在一篇博客文章中寫到,該公司遭受的網絡問題是因為Verizon的一個數據中心斷電影響到客戶支持系統,包括jetblue.com網站、移動應用、免費電話號碼、值機、機場柜臺和閘門系統。
微軟Office 365:1月18日和2月22日
從1月18日開始,一些Office 365用戶一連數天無法使用他們的云電子郵件帳戶,這讓他們痛苦不堪。
微軟將這歸咎于有漏洞的軟件更新,但是第一次嘗試修復并沒有成功,5天之后第二次電子郵件故障激怒了客戶。這個云生產力套件的電子郵件服務故障在一些情況下會持續超過一周的事件。雖然并非所有Office 365用戶都受到宕機的影響,但微軟證實,這次受影響的用戶較多。
大約一個月后,微軟在歐洲的一些客戶發現他們無法通過手機訪問電子郵箱,或者嘗試通過網頁版登錄到Office 365服務的時候遭遇延遲。
微軟表示,這兩次故障的發生,都是因為用戶重度資源需求導致基礎設施組件降級。
Salesforce:3月3日
Salesforce在歐洲的一些客戶不得不面對由于一個存儲問題導致長達10小時的CRM故障。
即使是在存儲層重新連接之后,一些功能仍然無法正常工作,Salesforce繼續報告其EU2實例的性能下降。
Google Cloud Platform:4月11日
4月11日晚,Google Cloud Platform出現18分鐘的中段,影響到Compute Engine實例和所有地區的VPN服務。
Google為受影響的客戶提供每月Google Cloud Engine費用10%的折扣,以及每月VPN費用25%的折扣。
Salesforce:5月10日
5月10日,Salesforce.com持續中斷了4個小時,讓客戶無進入CRM,并用了數天才完全修補好。
盡管Salesforce首席執行官Marc Benioff個人在Twitter上向一位客戶道歉,但是并沒有就這次故障受印象的范圍、或者與NA14(Salesforce在北美的45個云實例之一)相關數據庫故障影響到哪些地區或者服務作出評論。
Salesforce的系統狀態頁面表示性能下降開始于美國東部事件上午8:41,隨后是不到一個小時的“服務中斷”,時間是上午9:31。
Apple:6月2日
Apple云在6月2日發生廣泛的服務中斷,讓Apple一些受歡迎的零售和備份服務服務都出現中斷。
這次故障從太平洋時間下午12:30開始,讓一些客戶無法訪問多個iCloud和App Store服務。
App Store、Apple TV App Store和Mac App Store、iTunes和Apple基于云的圖片服務都遇到了中斷。
AWS:6月4日
6月4日澳大利亞悉尼早于暴風雨,導致該地區的一個AWS域斷電,一些托管了關鍵工作負載的EC2實例和EBS卷隨后出現故障。
同時在那個周末,澳大利亞AWS可用區域內的網站和在線服務出現大約10個小時的中斷,從銀行服務到披薩送貨都受到了影響。
受影響的企業客戶敦促這個全球最大的云提供商盡快恢復服務。
Google Nest:8月22日
當美國全國遭遇熱浪的時候,Google Nest恒溫器也出現了連接錯誤,導致許多客戶無法遠程控制他們的空調系統。
雖然客戶仍然可以手動控制AC,但是廣泛的故障引發了人們對智能家居技術潛在漏洞的關注。Nest還售賣面向家庭、兒童監控和煙霧探測器的Dropcam。
微軟Azure:9月15日
包括SQL Database在內的多個微軟Azure服務,在9月15日波及所有地區用戶的全球性DNS故障中發生降級。
微軟在美國東部時間上午9點在Azure狀態頁面上報告了這次故障,并指出工程師們已經找出了導致該故障的底層問題,正在確定緩解問題的選項。截止上午11點,微軟報告大多數中斷的服務已經恢復上線。
一周之前也就是9月9日,Azure歐洲客戶剛剛遭遇了數小時的服務中斷。
Dyn:10月21日
10月21日,互聯網性能管理公司Dyn早于網絡攻擊,導致廣泛的服務中斷,影響到包括AWS在內的多家云服務提供商,其中AWS不得不重新路由到備用的DNS提供商。
總部在曼徹斯特的Dyn公司表示,他們的服務器基礎設施成為了這次分布式DDoS攻擊的目標,特別影響到DNS客戶。這種攻擊是獨一無二的,因為它來自數百萬已經被惡意軟件接管的物聯網設備,如連接的相機和打印機。
許多依賴于Dyn流量管理和優化服務的流行網站出現中斷或者遇到問題,包括Twitter、Spotify和Github。