亞馬遜S3存儲服務最近在美國東海岸的可用區域經歷了五個小時的中斷。而許多消費者和商業應用程序都依賴云存儲服務,因此S3存儲服務的中斷迅速級聯,并且Netflix,Slack等組織的服務出現暫時癱瘓。
發生這樣的云中斷是正常的,令人關注的是會影響到這么多的企業。最近一次重大的中斷是2016年8月AWS服務中斷。雖然Amazon S3是為數據持久性而設計的,但并不等于中斷之后具有快速可恢復性。與其他優異的云平臺一樣,他們仍留有一些空白:
•可用區域不等于可恢復性。 S3存儲服務的設計可以抵御一個可用區域的網站中斷,但是最近的中斷事件顯示,網絡問題可能導致整個地區的廣泛中斷。
•數據仍然需要備份。行業專家對此進行了呼吁,甚至亞馬遜公司也建議備份數據。
•恢復可能是緩慢和乏味的。備份數據是一回事,完全恢復數據是另一回事。故障后恢復數據可能需要幾個小時或幾天的時間,尤其是超大規模應用程序和數據庫。
•數據通常放在一個“籃子”中。如果備份數據與主數據存儲在相同的云服務中,則在相同的可用區域中,無法在中斷期間恢復數據。
•數據可能會被泄露或進入不一致的狀態。云計算本身不會保護數據免受應用程序或數據庫級別的損壞或人為錯誤。
企業需要設計一個數據備份,恢復和連續性策略來考慮云計算。為了確保數據中心可以快速恢復,需要注意以下事項:
•將備份數據保存在另一個服務或區域中。像這樣的中斷通常會影響整個地區。備份和恢復策略需要包括在其他區域,云服務,甚至私有云中恢復的能力。
•快速恢復過程。傳統的備份解決方案和基于腳本的方法無法快速恢復數據,特別是應用程序需要恢復到不同的拓撲的時候。
•具有時間點恢復的功能。由于數據可能會在中斷的早期階段受到損害,所以能夠快速將應用恢復到一個時間點也很重要。
云計算服務架構比傳統的基礎設施更具彈性,并提供更大的靈活性。但是當中斷確實發生時,它們也完全不受控制。不要忽略數據的可恢復性和彈性,因為它在云中,并且不要期望相同的恢復過程和工具可用于下一代超大規模應用程序中。