一次小小網頁中斷對數據中心來說損失要按秒計費

責任編輯：jackye 作者：Money |來源：企業網D1Net 2016-08-18 09:07:18 本文摘自：太平洋電腦網

平時上網時我們偶爾會遇到這樣的問題，游戲突然掉線；網頁崩潰；網上購物無法查看商品等等，也許我們會覺得無所謂，等一下在訪問就好，不會有什么影響，然后對于數據中心來說并非如此。

比如購物網站，如果頁面訪問中斷或者非常緩慢超過1分鐘，40%的人會選擇轉投其它網站完成購物，如果中斷超過1小時，甚至連續的多日中斷，超過50%的人會徹底放棄這個購物網站，在自己的網頁里永遠不會再放置這個購物網址，這對于購物網站來說是非常致命的，意味著大批的用戶都會消失。

數據中心事故常在發生，筆者粗略的整理了幾個2016年影響范圍比較大數據中心故障

2016年1月14日Verizon公司運營的數據中心電力中斷，導致美國廉價航空捷藍航空公司的客戶的旅行延誤了幾個小時。數據中心停電發生在當日上午11時37分，捷藍航空在下午2:30可以正常運行其在線預訂服務和機場辦理登機手續的業務。大約40分鐘后，電力恢復。而捷藍航空公司完整的在線服務，包括飛行跟蹤功能等，直到晚上8點才恢復。

2016年1月18日Microsoft Office 365的用戶的電子郵件賬戶出現問題，微軟將故障歸咎于一次錯誤的軟件更新，但是其初次修復的嘗試并沒有解決問題，在最初的故障出現五天之后，第二次電子郵件故障又爆發了，這一次激怒了很多用戶。

然而無獨有偶，2月22日，歐洲的一些Office 365客戶遇到了用手機無法訪問電子郵件的問題，或者在嘗試通過網絡門戶登錄Office 365服務的時候出現了延遲的問題，在幾個小時的時間里，該問題間歇性地影響了用戶使用。微軟將這個問題歸咎于對云資源的需求過大。

2016年4月11日傍晚，Google Cloud Platform出現了大約18分鐘的中斷，影響了其所有地區的Compute Engine實例和VPN服務。谷歌為受到影響的客戶補償了10%的Google Compute Engine月服務費，以及25%的VPN月服務費。

2016年5月10日6：30到5月11日下午14：30，提供云服務的Salesforce.com遭遇了一次由于停電導致的大范圍服務器宕機，此次宕機影響了北美的14個站點，同時北美的用戶也受到影響。更糟糕的是，宕機故障發生后，Salesforce.com工作人員希望將數據庫恢復到4小時以前的狀態，但不幸的是，這一操作進而導致了這4個小時內的數據丟失。

2016年7月20日，Equinix公司子公司Telecity公司的倫敦數據中心由于UPS電源系統故障，導致連接其數據中心的英國各地的互聯網絡中斷。其時間從早上07:55持續到08:17。Equinix公司的工程師都在現場進行處理，并積極與客戶合作，將其影響降到最低程度。

數據中心故障等級

數據中心每中斷一秒，都會給企業帶來巨大的損失，于是十年前，Uptime研究所按照數據中心故障發生的時間長度對其進行了分類、比較，把數據中心分為四類：

T1級年平均故障時間28.8小時；

T2級年平均故障時間22小時；

T3級年平均故障時間1.6小時；

T4級年平均故障時間0.4小時；
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　數據中心故障每一小時就能造成巨大的損失

上面的盤點只是2016年數據中心故障的一部分，數據中心有多重要？從各行業數據中心業務每中斷1小時所帶來的損失，就可見一斑了：

能源行業每小時損失281.78萬美元；

通信行業每小時損失206.62萬美元；

制造業每小時損失161.06萬美元；

金融機構每小時損失149.51萬美元；

IT行業每小時損失133.45萬美元；

保險行業每小時損失120.25萬美元；

零售行業每小時損失110.73萬美元；

醫藥行業每小時損失108.23萬美元；

化工行業每小時損失70.41萬美元；

交通行業每小時損失66.86萬美元。

是不是很可怕？然而這份數據來自2010年，6年前分析的數據，到如今按照分鐘算都可能不止上述的數字了。這恰恰意味著現在人們的工作生活越來越離不開數據中心，同樣數據中心能夠穩定的運行，才能擁有更多的用戶。

數據中心無法預知下一次的故障在何時何地，可以確定的是一定會再發生。我們無法預知但可以做到秒級甚至毫秒級的業務中斷。數據中心有從協議級、鏈路級、設備級，直到系統級的各種備份技術，這里很多備份技術可以達到毫秒、秒級，一旦發現業務異常，實現自動切換，確保業務不受影響或者少受影響。這些備份技術大大提升了數據中心連續穩定運轉能力，同時也增加了數據中心運營的成本。如果處處考慮備份，無疑會使數據中心不堪重負，往往要花費數倍于現有數據中心建設的成本。

對于當前數據中心密集應用環境下，毫秒級恢復能力成為數據中心的故障恢復指標，只有做到毫秒級的故障恢復，才能基本保證業務不受影響。

關鍵字：數據中心谷歌