如果我們可以從上個月發(fā)生的AWS停用事件中得到一個教訓的話,那么我想應該就是“云計算故障總是會發(fā)生的”。IT專業(yè)人士以及其他的專家均表示,如果你希望在發(fā)生故障事件時你可以迅速作出反應,那么你最好事先就做好應對計劃。
根據(jù)不同應用程序和數(shù)據(jù)的不同重要等級,那些應對計劃包括在客戶自己的數(shù)據(jù)中心中運行冗余服務器,或使用多個云計算供應商來建立網(wǎng)絡。
時刻做好發(fā)生故障的準備,LiveFamily的創(chuàng)始人和CTO David Blinder說,LiveFamily是一個從事家譜研究的Facebook應用程序,同時也是位于華盛頓州Bellevue Intelius公司的一個部門。
在Amazon網(wǎng)絡服務(AWS)基礎設施上運行的LiveFamily在六月中受到了兩次停用事件的影響,雖然其危害并不是災難性的。這部分是因為該公司使用了RightScale公司的云計算管理包,如果情況需要而且用戶愿意支付費用,該產(chǎn)品可重新分配路由和網(wǎng)絡流量至不同的云計算供應商。
但是,提供高層次彈性功能并不是免費。專家提醒說,客戶需要自行決定哪些應用程序是真正關鍵重要的。
IBM公司的業(yè)務連續(xù)性和彈性服務組向他們的潛在客戶進行了一次調(diào)查,內(nèi)容就是在建立托管服務前哪些應用程序是關鍵,IBM公司的杰出工程師Rich Cocchiara說。
“讓我們確定你需要擁有的服務等級,為你提供你所需要服務種類的服務等級對象和協(xié)議,”Cocchiara說。“順便說一句,并不是所有的業(yè)務流程和應用程序都是一樣的。”
保護系統(tǒng)停用可以非常簡單,就如同在客戶的數(shù)據(jù)中心中保持私有云計算設備。或者,它可能需要在不同的AWS可用性區(qū)域設立鏡像站點;它也可能很復雜,如運行多個云計算平臺。
“我們確實曾受到影響,但是我們的緩沖系統(tǒng)通過在發(fā)生問題時切換回本地處理與存儲基礎設施而挽救了我們,”匹茲堡LAN聯(lián)盟主席Colin Dean說,這是一個舉辦視頻游戲運動賽事的組織。“有某種故障安全的考慮是理想的,即在發(fā)生故障時,把你的網(wǎng)站轉(zhuǎn)至備用。”
AWS宕機事件放大了云計算的重要性
AWS在六月發(fā)生的兩次宕機事件都是由電氣故障引起的。第二次停用事件源于東海岸發(fā)生的大規(guī)模雷電天氣所引發(fā)電氣備用系統(tǒng)發(fā)生不可事先預見的故障。停用事件也對公司位于美國東1區(qū)的可用區(qū)域之一造成了影響,該區(qū)域是AWS最大的一個,其中至少有10個數(shù)據(jù)中心。
在6月29日至6月30日晚上的幾個小時中,諸如Pinterest、Netflix以及Instagram等大量的大型網(wǎng)站都不可用。
此外,宕機事件也造成了AWS“控制面板”的崩潰問題這也使問題進一步惡化。
就公司本身而言,Amazon已表示,公司將重新認證或更換未能正常運行的備用發(fā)電設備,同時調(diào)整硬件參數(shù),如在切換發(fā)動機電源前等待多長時間以便于電源波動穩(wěn)定下來。
AWS表示,這次最新發(fā)生的宕機事件并未影響“顯著”數(shù)量的客戶,雖然只有一個基于云計算的交友網(wǎng)站表示,受停用事件影響它將更換云計算供應商。
AWS沒有透露有多少客戶或用戶受到了宕機事件的影響。
LiveFamily有幸提前做好了應急預案,并在發(fā)生問題時成功地在不同的可用區(qū)域中運行AWS實例,雖然問題的發(fā)生是情有可原的,但是我們“確實受到了影響”,Blinder說。
RightScale云計算管理:Opscode Chef簡化恢復任務
除了提供其他的云計算自動化功能,包括RightScale公司的云計算管理以及其他諸如Opscode公司的Chef在內(nèi)的產(chǎn)品可以有助于簡化客戶從停用事件恢復的操作任務。
“故障總是會發(fā)生的,”位于西雅圖Opscode公司的CCO和共同創(chuàng)始人Jesse Robbins說,Opscode公司主要致力于Chef云計算基礎設施自動化產(chǎn)品。
與RightScale類似,Chef支持多種云計算平臺,其中包括AWS、OpenStack、微軟公司的Window Azure,同時該公司剛剛宣布支持Google公司的計算引擎。
“如Chef這樣的工具可幫助你在發(fā)生故障時自動轉(zhuǎn)換至另一個云計算供應商或為你提供自己的云計算,”Robbins補充道。“如果你的前期準備工作做得充分,那么發(fā)生故障僅僅只是一次意外事件,一次緊急事件,而非一場災難。”
Jeremy Przygode是位于洛杉磯Stratalux公司的共同創(chuàng)始人和CEO,AWS的經(jīng)銷商,Opscode的客戶。提供基于云計算技術管理服務的Stratalux公司也有部分客戶受到了六月下旬發(fā)生的停用事件的影響,但是公司處理事件顯得從容不迫。“問題發(fā)生了,”Przygode說。
運行多個云計算:復雜卻有效
對于那些真正無法承受停機時間的客戶來說,諸如RightScale、Opscode以及其他供應商提供的工具可使客戶運行多個云計算,但是這種做法是比較復雜的。
“這真的很難做到,”位于康涅狄格州斯坦福德的Gartner研究公司首席分析師Kyle Hilgendorf說,“你必須在另一個供應商那里保留一個確切應用程序棧的鏡像副本,然后你必須弄清楚如
果其中一個發(fā)生故障時你該如何應對故障,切換至正常的云計算供應商。”
事實上,很多專家都認為,在云計算中實施關鍵任務應用程序?qū)嶋H上可有助于防止停用事件。
“我的專業(yè)背景告訴我,云計算絕對是防止這些類型停用事件的工具,即提供某些客戶用戶之前不曾擁有過的某些功能,”IBM公司的Cocchiara說。
“因此,云計算不僅實現(xiàn)了價格實惠,而且因為它依賴于多個云計算中心,從而賦予用戶們決定他們應采取何種風險水平的能力,”Cocchiara補充道。