錯誤不可避免,而且在云端,逐漸變得可以為人們所接受。上個月在一些最大的提供商上演了新一輪的云宕機事件,但是似乎這些意外事件并未影響公眾對于云計算的認知。根據分析師的說法,客戶逐漸將宕機事件看作是不可避免的,而且廠商也逐漸對于其系統失敗采取更加透明的態度。
Gartner分析師Lydia Leong表示,企業隨時都會有宕機,沒人期望云提供商是完美的,而且云提供商也沒期望自己就是完美的。
Cloud Technology Partners的高級副總裁David Linthicum認為,冗余系統、災難恢復和故障修復計劃并非新鮮事物,而且IT人員開始清醒地意識到,在云端也沒有什么差別。Linthicum指出:“這和多年前我們在內部系統中所做的事情相同,大家只是更加明白了這一點。”
上個月,亞馬遜Web服務(AWS)遭遇了區域連接問題,以及其虛擬私有云的應用程序接口錯誤率大約為一小時,同時Rackspace的客戶在五月份嘗試針對云塊存儲創建大容量規模時出現了間歇性的可用性問題。
重大的宕機會消耗企業成本,降低客戶滿意度,但是廠商已經理解了需要同客戶就宕機進行實時的溝通。
Joyent云宕機
位于舊金山的云提供商Joyent可能是五月份最尷尬的云宕機,該公司的一位管理員同時重啟了其東海岸區域的所有虛擬服務器。隨后恢復的用時大約在20分鐘和兩個多小時。
這次失敗歸因于人工操作錯誤,該公司提供了事件剖析,概述了切向的編譯問題(the compilation of tangential issues),這個問題可以讓一個員工忽略兩個字符,從而“干掉”了整個數據中心。
失敗已經發生,但是提供商敢于承認錯誤,并且進行修正,Joyent CTO Bryan Cantrill在采訪中談到。
“大家都理解人工錯誤,因為我們都在反坐,”Cantrill說道,“但是他們不理解且不應該理解的模糊、隱晦和靜默。”令高管們驚訝的是,大多數的反饋是積極的。也有客戶抱怨,但是遠遠小于預期的,Cantrill談到并沒有企業要求終止合約,“這種極不正常的方式加強了我們同客戶之間的關系。”
Linthicum認為,云提供商可能更適合處理宕機,因為他們是其核心業務模型的中央。他使用了業余時間宕機的例子,內部系統要求IT人員下班后返回辦公室來解決問題,但是云提供商可以持續的有人來處理這個問題。
Linthicum指出,云宕機也比很多專家預期的問題要少很多,他還沒聽說過任何云提供商有重大的客戶數據丟失問題。但是這種對于云宕機的感知可能是產業區域性的。
Leong說:“我們很容易看到云宕機,提供商會說‘太糟糕了。’企業通常將云提供商宕機看作是整個產業的象征,相反如果是一次性的事件就沒有這么大的而影響。”
Technology Business Research的分析師Matthew Healey表示,一些期望可能不公平,但是沒人責備廠商,只能自認倒霉。“他們站出來說‘我們非常可靠’,現在他們創造了一些標準卻不遵守。”
公有云的吸引力在企業間不斷增加,雖然在現有基礎架構中仍存在持續的安全和投資擔憂。雖然宕機可能不是主要的原因,但是對于一些IT人員而言卻是絆腳石。Healey使用了飛機和汽車的類比。雖然飛機旅行更為安全,但是人們用汽車會感覺更加腳踏實地。
為不可避免的結果做準備
雖然宕機不可避免,但是IT人員不應該盲目進入云端。可靠的備份系統、故障修復和意外事故計劃是必須的,就像成本分析必須定期進行一樣。傳統IT外包合同涉及了法律團隊,和數千頁的法律語言,Healey說,同樣的云合同也遠遠不夠完善。
“云合同也處于發展階段,因此我覺得正在做的更好,但是并沒有解決所有的問題,”Healey說,“在解決這些問題的過程中會面臨更多的痛點。”
云提供商服務水平協議通常提供每月的計算可用性為99.95%或者更高,而且針對宕機的服務信用通常和宕機持續時間劃等號。
Cantrill并未揭露宕機會消耗公司多少成本。他說這一點顯而易見,但是他不期望看到長期上出現一些財務衍生問題。Cantrill說:”如果我們的客戶感到迷失或者受騙,很明顯他們就并不會進入公有云了,如果能夠透明且快速的解決,可以加速人們對于云計算的采用,因為人們知道可以有所保證。“