平時上網時我們偶爾會遇到這樣的問題,游戲突然掉線;網頁崩潰;網上購物無法查看商品等等,也許我們會覺得無所謂,等一下在訪問就好,不會有什么影響,然后對于數據中心來說并非如此。
比如購物網站,如果頁面訪問中斷或者非常緩慢超過1分鐘,40%的人會選擇轉投其它網站完成購物,如果中斷超過1小時,甚至連續的多日中斷,超過50%的人會徹底放棄這個購物網站,在自己的網頁里永遠不會再放置這個購物網址,這對于購物網站來說是非常致命的,意味著大批的用戶都會消失。
數據中心事故常在發生,筆者粗略的整理了幾個2016年影響范圍比較大數據中心故障
2016年1月14日Verizon公司運營的數據中心電力中斷,導致美國廉價航空捷藍航空公司的客戶的旅行延誤了幾個小時。數據中心停電發生在當日上午11時37分,捷藍航空在下午2:30可以正常運行其在線預訂服務和機場辦理登機手續的業務。大約40分鐘后,電力恢復。而捷藍航空公司完整的在線服務,包括飛行跟蹤功能等,直到晚上8點才恢復。
2016年1月18日Microsoft Office 365的用戶的電子郵件賬戶出現問題,微軟將故障歸咎于一次錯誤的軟件更新,但是其初次修復的嘗試并沒有解決問題,在最初的故障出現五天之后,第二次電子郵件故障又爆發了,這一次激怒了很多用戶。
然而無獨有偶,2月22日,歐洲的一些Office 365客戶遇到了用手機無法訪問電子郵件的問題,或者在嘗試通過網絡門戶登錄Office 365服務的時候出現了延遲的問題,在幾個小時的時間里,該問題間歇性地影響了用戶使用。微軟將這個問題歸咎于對云資源的需求過大。
2016年4月11日傍晚,Google Cloud Platform出現了大約18分鐘的中斷,影響了其所有地區的Compute Engine實例和VPN服務。谷歌為受到影響的客戶補償了10%的Google Compute Engine月服務費,以及25%的VPN月服務費。
2016年5月10日6:30到5月11日下午14:30,提供云服務的Salesforce.com遭遇了一次由于停電導致的大范圍服務器宕機,此次宕機影響了北美的14個站點,同時北美的用戶也受到影響。更糟糕的是,宕機故障發生后,Salesforce.com工作人員希望將數據庫恢復到4小時以前的狀態,但不幸的是,這一操作進而導致了這4個小時內的數據丟失。
2016年7月20日,Equinix公司子公司Telecity公司的倫敦數據中心由于UPS電源系統故障,導致連接其數據中心的英國各地的互聯網絡中斷。其時間從早上07:55持續到08:17。Equinix公司的工程師都在現場進行處理,并積極與客戶合作,將其影響降到最低程度。
數據中心故障等級
數據中心每中斷一秒,都會給企業帶來巨大的損失,于是十年前,Uptime研究所按照數據中心故障發生的時間長度對其進行了分類、比較,把數據中心分為四類:
T1級年平均故障時間28.8小時;
T2級年平均故障時間22小時;
T3級年平均故障時間1.6小時;
T4級年平均故障時間0.4小時;
數據中心故障每一小時就能造成巨大的損失
上面的盤點只是2016年數據中心故障的一部分,數據中心有多重要?從各行業數據中心業務每中斷1小時所帶來的損失,就可見一斑了:
能源行業每小時損失281.78萬美元;
通信行業每小時損失206.62萬美元;
制造業每小時損失161.06萬美元;
金融機構每小時損失149.51萬美元;
IT行業每小時損失133.45萬美元;
保險行業每小時損失120.25萬美元;
零售行業每小時損失110.73萬美元;
醫藥行業每小時損失108.23萬美元;
化工行業每小時損失70.41萬美元;
交通行業每小時損失66.86萬美元。
是不是很可怕?然而這份數據來自2010年,6年前分析的數據,到如今按照分鐘算都可能不止上述的數字了。這恰恰意味著現在人們的工作生活越來越離不開數據中心,同樣數據中心能夠穩定的運行,才能擁有更多的用戶。
數據中心無法預知下一次的故障在何時何地,可以確定的是一定會再發生。我們無法預知但可以做到秒級甚至毫秒級的業務中斷。數據中心有從協議級、鏈路級、設備級,直到系統級的各種備份技術,這里很多備份技術可以達到毫秒、秒級,一旦發現業務異常,實現自動切換,確保業務不受影響或者少受影響。這些備份技術大大提升了數據中心連續穩定運轉能力,同時也增加了數據中心運營的成本。如果處處考慮備份,無疑會使數據中心不堪重負,往往要花費數倍于現有數據中心建設的成本。
對于當前數據中心密集應用環境下,毫秒級恢復能力成為數據中心的故障恢復指標,只有做到毫秒級的故障恢復,才能基本保證業務不受影響。