上周,亞馬遜在東海岸的一個數據中心發生了中斷,許多企業和一些聯邦機構的運行被迫癱瘓。斷電的原因是,一個員工在調試一個計費系統時,意外地使比預期更多地服務器進行了脫機。
甚至更多的服務器在連鎖反應下被強制脫機,所有這些服務器都必須重新啟動。在此期間,S3無法響應客戶服務需求。尤其是亞馬遜的云存儲,也難以訪問。以下是我和其他一些行業觀察家的意見。
云服務(如亞馬遜S3)的客戶,可以通過擁有多個實例,將他們的應用程序在其他區域的數據中心,也就是同一個云的其他部分運行,以預防數據中心中斷。或者有一個更好的辦法,同時選擇另外一個完全無關的云。(例如坐落在美國西海岸的谷歌云和位于美國東海岸的亞馬遜云。)
Tintri的產品和解決方案營銷副總裁Chuck Dubuque說:“在金融市場上,投資者會通過擴大業務經營范圍,以保護自己免受波動影響。或許同樣適用于公司和組織部署云服務。”
這可以成為一個組織災備計劃的一部分。有更多保存你的數據和服務的選項——包括數據中心的位置和管理,可以使你免受故障的影響,但是這樣通常會提高花費在云服務上的成本,根據你所增加的云服務的數量。
Zert的董事長,Paul Zeiter說:“企業和IT行業的領導者們正通過精心制定他們的混合云戰略——可以給他們提供多層次的基礎設施冗余保護——使自己能夠走在前列,保持關鍵業務無縫地前進。可能是通過將多種類型的云,包括公有云和私有云結合使用,并確保任何干擾在用戶察覺不到的情況下完成修復。”
使用具備存儲能力的內部硬件是另外一種方法,但這又會產生額外的費用。很多小型企業無法承受這樣的額外服務或購買硬件而產生的費用。要從故障中恢復,最大的問題就是訪問存儲數據。
Nexsan的COO(首席運營官) Geoff Barrall評論說:“從亞馬遜S3中斷造成的動蕩中我們可以看出,可靠的數據訪問是至關重要的。很多企業為了保持運行,運維人員經常性地進行數據訪問是非常必要的。如果數據保存在一個組織自己的IT基礎設施上,那么任何停機時間花費的企業時間成本和金錢會更容易管理。通過先進的文件同步和共享能力,私有云可以根據運維人員的需求提供與本地存儲相差無幾的安全性和可控性。”
也許最簡單、至少最便宜的提供快速恢復的方式,就是將應用程序的多個實例應用數據存儲在多個位置(即使備份位置沒有被激活)。
企業依靠存儲的數據來運行他們的業務。亞馬遜云服務中斷和其他類似的故障表明,這些服務并不完美,不過沒有什么是完美的。公司必須在基于公有云或私有云的冗余花費和主要存儲產生故障時所丟失的業務之間互相權衡。