又宕機了!
美國當地時間3月10日,亞馬遜再次發生停服事故,前后持續約20分鐘。這次事故不僅導致亞馬遜電子商務主網站無法訪問,而且也波及到了亞馬遜的其他服務,其中就包括亞馬遜云計算服務,以及一些數字內容服務等。
云計算在給個人和企業用戶帶來諸多便利的同時,近幾年來頻繁發生的各種云事故也增加了人們對云的擔心。最近一段時間,云災備這個新概念在國內逐漸興起,將備份和容災放到云中漸成趨勢。亞馬遜這次停服事故讓記者聯想到,如果云服務商三天兩頭出問題,那么用戶還敢放心地采納云災備嗎?
宕機,見怪不怪既然談到宕機,那么不妨先回顧一下過去兩年全球范圍內發生的曾引起廣泛關注的云事故。
2014年11月2日下午,騰訊云服務器出現了6分鐘的訪問故障。騰訊云網站響應速度慢,圖片打不開,并出現無法登錄管理中心控制臺等問題。
2015年3月11日,Apple iCloud內部DNS錯誤導致其iTunes和App Store的服務宕機,一些iCloud的電子郵件帳戶也受到短暫影響。
2015年,5月27日晚6點時左右,杭州、北京、上海、武漢等地用戶反映,支付寶無法正常使用。支付寶公司對故障的回應稱,杭州蕭山某地光纖被挖斷,導致故障。
2015年6月21日,阿里云香港節點當天9點30分左右突然全線崩潰,截至當晚22點才逐漸恢復,整體過程歷時近13小時。
2015年,8月22日,位于美國硅谷的富士通數據中心供電異常,導致公有云服務暫時下線,5天后才恢復正常。
2015年9月20日,亞馬遜AWS宕機,首先是亞馬遜DynamoDB服務出現問題,此后亞馬遜的其他服務也受到影響,同時波及了很多著名網站。
不用再繼續了吧。上述諸多例子已經說明,隨著云服務的普及,各種原因導致的宕機也成了家常便飯。這也算是一種云服務的“新常態”吧。
“公眾應該認識到,云并不能保證萬無一失。隨著云上的應用越來越多,業務價值越來越重要,影響越來越廣泛,宕機也會是常態。”英方股份(以下簡稱英方)CEO胡軍擎表示,“有些用戶以為,采用了云計算以后,就可以把安全、業務連續性等問題完全交給云計算廠商去解決,這就如同把數據問題交給磁盤廠商一樣不合理。”云服務商可以為用戶提供云主機,但是如何保護云主機,是否采用災備,這些事情還是要用戶自己來考慮和決定。
“公有云很脆弱,它們本身也需要做災備。”備份、容災軟件提供商中科同向總經理鄔玉良開門見山,“數據越集中,風險也越集中,尤其是集中部署的電子商務、云計算系統,一旦發生宕機,用戶會損失慘重。”鄔玉良補充說,中科同向有針對公有云的災備解決方案。
同樣專注于數據保護和容災領域的愛數公司認為:如果僅僅是災備的數據在云中,那么云本身出現問題,對應用的影響有限;如果用戶的業務系統在云中,那么為了避免因云出現問題而導致損失,用戶應該事先對云中的業務做備份和容災。使用阿里云的愛數公司,會定期將業務數據從云中備份到本地,以防止出現云故障時不能對外提供服務。
災備需求會永遠存在看到亞馬遜宕機的消息后,記者第一時間詢問國際災難恢復(中國)協會(DRI China)總裁于天對此事的看法。他表示:“根據目前得到的有限信息,無法對亞馬遜宕機事件做出評價。但是,并非只要發生問題就一定要給個差評。從專業的BCM(業務連續性管理)的角度看,業務系統永遠不發生問題,這是不現實的。我們更關注的是,在問題發生后,如何評估影響,并采用積極有效的措施解決問題。這才是業務連續性管理和災備存在的價值。”
于天認為,從報道的內容來看,亞馬遜宕機20分鐘后就恢復了正常,僅從這一點來看,并不能說明亞馬遜在災備方面做的不好(當然還要看其用戶所受影響大小,以及亞馬遜對用戶的承諾)。因此,用戶不必對公有云產生過分憂慮,如果真的由此而不敢采用公有云,那就是因噎廢食。當然,宕機事件必須引起足夠重視,并深入分析問題的根源。從BCM的角度出發,只要采取有效的措施,就可以降低發生問題的概率,減少不良影響。
3月11日,可信云服務第五次情況通報會在北京舉行,會上公布了可信云服務第五批認證結果:在72家云服務商提交的87項云服務中,30項云服務通過了第五批可信云認證,通過率為35%,較前四批有所下降。
會上還首次公布了可信云云主機可用性檢測情況。2015年9月至2015年12月,可信云云主機可用性監測的平均可用性達97.7%-99.9%,31%的云主機連續6個月達到了自身承諾可用性。這基本反映了當前國內云主機的可用性狀況。從統計數據看,保持云主機的連續可用性任務艱巨。
美國飛康公司副總裁、亞太區總經理楊政表示:“作為云災備的一個重要載體,云服務提供商能否保證自身基礎架構的安全、可靠非常重要。對于用戶來說也是如此,把IT遷到云端并不代表解決了所有管理方面的問題。這些云服務的提供商也許有興趣和我們這些軟件定義存儲或虛擬化軟件的廠商坐下來探討一下,如何進一步提升云的可靠性,讓用戶更放心。”
作為云災備服務商,英方也不能完全保證用來做災備的服務器不宕機。英方能做到的是,實現合理的災備部署,保證生產系統和災備系統不同時宕機。“在任何情況下,企業都應該未雨綢繆,防患于未然。這也是英方提出‘讓世界早有準備’的初衷。”胡軍擎表示。
現在是全球知名的亞馬遜出現了宕機,引起了人們的廣泛關注,如果換成國內的阿里云出現故障呢?我們只能說,出現宕機的情況其實很正常。就像服務器廠商不可能承諾自己的服務器100%不出問題一樣,云服務商也不會做出相同的承諾。這也說明,不管到了什么時代,即使是云全面普及的時代,災備、高可用性的需求仍會存在。用戶必須認真考慮災備,這是必不可少的一環。
容災要講究方法和策略“比起數據大集中,云模式的安全風險更大,因為云把所有企業和與之相關的系統、應用全都集中在一起。”萬國數據副總裁張權表示,“如果企業能夠采用混合架構,就能更好地分散風險。另外,采用云計算以后,智能化的監控和運維就顯得非常必要和重要。只有采用智能化的監控和運維,才能更快地發現問題,解決問題,縮短RTO的時間。”
談到云災備,深藍云海系統部總監姜亞杰表示:”首先,云災備系統并不是生產環境,所以云服務商的宕機不會影響生產系統;其次,云災備的監控尤為重要,一旦發現問題,必須及時采用應急處理措施;最后,云災備本身可以通過級聯或‘一備二’的方式進行災備的災備。“
作為阿里云的鉆石合作伙伴,英方云獨有的字節級數據捕獲與復制技術可以實現I/O級別的數據增量傳輸,占用帶寬低,節省存儲空間;其多方位數據加密技術,可確保數據傳輸安全可靠。
簡單說,所謂云災備就是將傳統采用物理機的災備端替換為云平臺,以便提供更具彈性、靈活性和經濟性的災備服務。胡軍擎舉例說:“如果用戶選擇利用阿里云的云主機來承載自身的關鍵業務,那么就應該同時在阿里云的另外一個節點上部署應用級的災備。我們與阿里云聯合提供的高可用的云主機服務是這樣做的。”
2016年3月,深藍云海剛剛發布了應用級的云災備平臺。“我們會針對用戶的應用系統級別和相應的災備需求,制定相應的災備策略。有些系統可以采用‘本地HA(高可用)系統+應急”的方式,有的可以采用數據級的容災,還有些系統適合部署應用級的云容災,那些特別重要的系統可以考慮采用基于異構云平臺的應用級容災。“姜亞杰表示。
由此可見,無論是在物理環境中的容災,還是云容災,都要對癥下藥,針對客戶的不同需求和保護等級采用合理的容災解決方案。
張權深有同感:”災備這個話題比較復雜,針對不同類型和需求的客戶,解決方案和實施策略可能是不同的。其實,災難恢復,不管是采用傳統的架構,還是采用云,其核心問題都是數據的復制。數據復制一定要及時、有效、可靠,這樣才能談得上有效恢復。“
“相比傳統的災備,云災備更加復雜,數據復制也更麻煩,尤其是對于那些大型的擁有比較復雜的IT架構的客戶來說更是如此。”張權告訴記者,“針對一些系統比較簡單、數據量不太大的中小用戶,市場上有很多適合的災備解決方案,可以實現數據級或應用級的災備。當然,實現應用級的災備相對復雜一些。”
“未來,當云計算普及后,云災備這個概念可能就沒有了,因為所有的業務上云后,業務的安全性、可用性可能要從云的整體系統架構的層次來考慮。”張權認為,AWS在這方面做得比較好,其同城三節點的部署方式就是從提高安全性和可用性的角度出發設計的。現在,越來越多的IaaS服務商向PaaS領域擴展,涉及的系統和應用可能會更多更復雜,如果想做應用級的災備,實現難度也會更大。
延伸閱讀今天是個特別的日子——“3·15”。不知你是否注意到了,現在爆出的云服務宕機的消息,很少談及服務商是如何對受損的用戶進行賠償的。
在2015年7月30日舉行的可信云服務大會上,主辦方宣布,可信云服務工作已經引入云保險增信機制,其目的是利用技術和金融手段相結合的方式解決云服務面臨的宕機和數據丟失的風險。云保險的第一批試點工作也已經展開。首批試點服務商之一萬國數據已經與保險公司合作提供云保險服務,這也是除技術保障以外,從商務上更好地保護用戶利益的一種有效措施。