去年四月,亞馬遜網絡服務本身經歷了一次備受矚目的為期四天的服務中斷;另一次服務中斷發生在去年八月,其他很多云服務公司也發生了類似的中斷服務。微軟的Windows Azure云平臺在去年二月由于公司沒有考慮到閏日“Leap Day”而出現宕機,盡管云供應商正在不斷的改進以便減少未來可能發生的中斷事故,但仍有更多的中斷事故會在今年及以后的時間里不可避免地發生。
“所有的一切都運行失敗。”亞馬遜首席技術官沃納?威格爾說。
去年四月,亞馬遜網絡服務本身經歷了一次備受矚目的為期四天的服務中斷;另一次服務中斷發生在去年八月,其他很多云服務公司也發生了類似的中斷服務。微軟的Windows Azure云平臺在去年二月由于公司沒有考慮到閏日“Leap Day”而出現宕機,盡管云供應商正在不斷的改進以便減少未來可能發生的中斷事故,但仍有更多的中斷事故會在今年及以后的時間里不可避免地發生。
如下是專家建議的一些步驟,幫助企業的IT部門在發生云服務中斷時應果斷采取,避免發生更大的損失:
1)使用亞馬遜網絡服務的多個可用性區域。
亞馬遜網絡服務在各地區為每個服務都提供了“可用區域”(AZ)。公司將其可用區域描述為每一項服務都是運行在不同的獨立的基礎設施上的。“他們實際在物理上是分開的,這樣,即使是非常罕見的災害,如火災、龍卷風或洪水也只會影響單個可用區域。”在去年的停電事故中,約45%的客戶只采用了單個可用區域,使得其關系數據庫服務受到了影響,較之僅僅只有不到3%的客戶使用了多個可用性區域方式,亞馬遜網絡服務在報告中說。該公司經歷了去年的大規模停電事故后,通過允許共同設計和API分發跨多個可用性區域的實例,使得客戶更容易使用多可用性區域的方式。
2)使用多個地區的亞馬遜網絡服務。
亞馬遜網絡服務包括八個地區:美國東部(北佛吉尼亞州)、美國西部(俄勒岡)、美國西部(加利福尼亞北部)、歐盟(愛爾蘭)、亞太(新加坡)、亞洲(東京),南美洲(圣保羅),和亞馬遜網絡服務政府部分云服務。除了額外的安全和保護多可用性區域方法之外,用戶還可以采用多個地區的亞馬遜網絡服務,將工作量分配到多個地區。畢竟要將工作量分配到多個“可用區域”還是不太容易的,單獨的API需要調用不同地區的需求。
3)選擇多家云服務供應商。
即使采用了亞馬遜網絡服務的多“可用區域”和多“地理區域”的方法仍然感覺不保險?那么,Drue Reeves建議您選擇多家云服務提供商,Drue Reeves是Gartner公司的云分析師。但Reeves也同時告誡,因為一些服務提供商共享公共數據中心資源。客戶可以檢查個別供應商,看看他們是否與任何其他客戶共享資源。
4)明確服務水平協議。
除了采取技術措施,客戶還可以采取非技術性的措施,如與云服務供應商就服務水平協議(SLA)進行談判,明確規定好不同中斷情況的處罰賠償條款。如果客戶采用了一家云提供商的災難恢復服務,SLA可能強制高達99.999%的可用性。
5)謹慎從事,三思后行。
如果用戶極為關注在云中數據和應用程序的高可用性,IDC公司的分析師史蒂夫亨德里克說,這也許意味著該客戶尚未準備好采用公共云服務。亨德里克說,這是一個簡單的等式:關鍵任務數據和計算資源越重要,客戶就對于更多的彈性和高可用性的保護落實到位就越重視。