亞馬遜首席技術官Werner Vogels表示:“一切都可能出現故障。”
在去年四月,亞馬遜遭遇了一次為期四天的服務中斷,隨后在八月份又出現了一次中斷。今年二月,微軟公司的Windows Azure云平臺出現停機問題。盡管云服務供應商們都在努力改進系統以最大限度地減小云中斷的風險,相信在2012年和以后,我們仍然將不可避免的會遭遇服務中斷。
專家表示企業IT部門應該采取以下五個措施來盡量避免云服務中斷帶來的風險:
1、使用多個可用區
亞馬遜在各個地區為其每個服務都提供可用區(AZ),該公司介紹說,可用區在不同的獨立的基礎設施上運行,“它們實際上是分開的,即使發生非常罕見的災難,例如火災、龍卷風或者洪水,都只會影響單個可用區。”在去年亞馬遜的服務中斷中,僅使用單個可用區用于關系數據庫服務的客戶中,大約有45%受到了中斷的影響,而使用多個可用區的客戶,只有不到3%受到影響。在去年的中斷事故后,該公司對可用區服務進行了改善,允許在不同可用區間使用共同的設計和API,讓用戶可以更容易地使用多個可用區的方法。
2、選擇多個地區
亞馬遜擁有一個跨八個地區的網絡,包括:美國東部(北弗吉尼亞州)、美國西部(俄勒岡州)、美國西部(北加州)、歐洲(愛爾蘭)、亞太地區(新加坡)、亞太地區(東京)、南非(圣保羅)和AWS GovCloud。除了采用多可用區的方法獲得額外的安全和保護外,用戶還可以將工作負載分布在多個地區。但是這并不像將工作負載分布在多個可用區一樣簡單,因為不同的地區需要單獨的API調用。
3、選擇多個云服務供應商
采用多可用區、多地區的方法,仍然覺得不夠安全?Gartner云分析師Drue Reeves建議說,還可以選擇多個云服務供應商。但是需要注意的是,一些云服務供應商共享相同的數據中心資源。Reeves表示,客戶可以檢查云供應商是否與其他供應商共享資源。
4、服務水平協議
除了采用這些技術措施外,用戶還可以利用非技術性的措施,例如與云服務供應商協商有關服務水平協議(SLA)的問題,如果出現服務中斷應該支付多少罰款。如果用戶使用云服務供應商用于災難恢復服務,服務水平協議還可以強制要求高達99.999%的可用性。
5、考慮是否應該使用云服務
如果用戶非常關心云端數據和應用程序的高可用性,IDC分析師Steve Hendrick表示,也許這意味著客戶并沒有準備好使用公共云服務。Hendrick表示,這是一個簡單的等式:越是關鍵任務型的數據和計算資源,客戶就應該部署更多的保護和確保高可用性。