8月5日,一家創(chuàng)業(yè)公司“前沿?cái)?shù)控”發(fā)文,稱其在騰訊云上數(shù)據(jù)全部丟失。之后騰訊云對此回應(yīng)稱,該事故是因所在物理硬盤固件版本bug導(dǎo)致的靜默錯(cuò)誤且運(yùn)維人員存在不規(guī)范操作所導(dǎo)致,并表示了道歉與賠償。
至此,在一年多的時(shí)間里,微軟、AWS、阿里云、騰訊云等主要云計(jì)算服務(wù)商相繼出現(xiàn)問題,這也讓外界產(chǎn)生疑惑:云計(jì)算怎么了?
近些年,企業(yè)上云已成趨勢,而云一旦出問題,很可能影響頗大;然而就像天底下沒有不生病的人一樣,云計(jì)算也自然也不可能百分之百完全不出問題。這次的騰訊云事件,剛好可以用來聊聊這個(gè)話題,讓我們透視云計(jì)算平臺(tái)與企業(yè)如何應(yīng)對可能存在的問題。
沒有絕對不出問題的云計(jì)算
但我們或許可以借此討論這樣一個(gè)問題:云計(jì)算平臺(tái)不出錯(cuò)的理想情況,到底是否可能?
答案當(dāng)然是否定的,任何云計(jì)算平臺(tái)都有發(fā)生事故的可能。云計(jì)算本身是一種本地存儲(chǔ)與運(yùn)算的替代方案,所以本地計(jì)算可能出現(xiàn)的軟硬件問題,也將映射到云計(jì)算體系中。
當(dāng)然,隨著云計(jì)算技術(shù)的不斷進(jìn)步以及產(chǎn)業(yè)服務(wù)能力增強(qiáng),今天我們看到云計(jì)算應(yīng)對風(fēng)險(xiǎn)的技術(shù)解決能力、容災(zāi)能力、應(yīng)急冗余能力都在提高。
但同時(shí)也應(yīng)該看到,云計(jì)算的另一面,是體系復(fù)雜化、碎片化的業(yè)務(wù)需求,更加復(fù)雜的云計(jì)算應(yīng)用體系以及云計(jì)算+AI、云計(jì)算+IoT等新業(yè)務(wù)種類,導(dǎo)致出現(xiàn)風(fēng)險(xiǎn)的場景更多。比如去年英國一個(gè)移動(dòng)應(yīng)用企業(yè)發(fā)生了數(shù)據(jù)崩潰,原因在于企業(yè)員工違規(guī)收取了郵件,最終導(dǎo)致云存儲(chǔ)數(shù)據(jù)被大規(guī)模劫持。
不過從另外一個(gè)角度來看,云廠商提供給用戶的真正有價(jià)值的服務(wù)并不是一個(gè)一定不會(huì)出問題的服務(wù),而是讓企業(yè)可以低成本快速的搭建一個(gè)服務(wù)冗余、一定容災(zāi)的架構(gòu)的能力。從騰訊云的案例中我們可以看到,云計(jì)算的問題可能很復(fù)雜,而平臺(tái)的處理能力是解決問題的第一方案。
出現(xiàn)了問題,云計(jì)算平臺(tái)如何應(yīng)對?
讓我們回顧一下騰訊云這次事件中,數(shù)據(jù)丟失到底因何發(fā)生:
根據(jù)騰訊云方面的技術(shù)復(fù)盤,該故障緣起于因磁盤靜默錯(cuò)誤導(dǎo)致的單副本數(shù)據(jù)錯(cuò)誤,再加上數(shù)據(jù)遷移過程中的兩次不規(guī)范的操作,導(dǎo)致云盤的三副本安全機(jī)制失效,并最終導(dǎo)致客戶數(shù)據(jù)完整性受損。具體原因是,是因?yàn)檫\(yùn)維人員在收到倉庫空間使用率過高警告后,準(zhǔn)備發(fā)起搬遷擴(kuò)容。在搬遷國產(chǎn)中,為了加快速度,手動(dòng)關(guān)閉了遷移過程中的數(shù)據(jù)校驗(yàn)。而在搬遷完成后,運(yùn)維人員將出事故云盤訪問切至新倉庫,同時(shí)為了釋放空間,對原倉庫中的源數(shù)據(jù)發(fā)起了回收操作,之后發(fā)現(xiàn)部分云盤出現(xiàn)IO異常。
本次事故起源自因磁盤靜默錯(cuò)誤導(dǎo)致的單副本數(shù)據(jù)錯(cuò)誤,再由于數(shù)據(jù)遷移過程中的不規(guī)范操作,導(dǎo)致異常數(shù)據(jù)擴(kuò)散至三副本,進(jìn)而導(dǎo)致客戶數(shù)據(jù)完整性受損。
騰訊云已經(jīng)正式道歉,并從技術(shù)角度坦誠了相關(guān)問題的存在。
由于云計(jì)算事故的問題,往往來自復(fù)合型問題、細(xì)節(jié)問題。而往往平臺(tái)諱莫如深,甚至想要撇清責(zé)任,是導(dǎo)致事件復(fù)雜化的直接原因。而騰訊云此次的坦誠方案,在業(yè)界還是收獲了一定的肯定
而通過騰訊云的事件,我們可以看到真正能夠有效降低云計(jì)算故障的方法,是在出事前進(jìn)行干預(yù)。比如說:
1、搭建應(yīng)急預(yù)案,不斷更新容災(zāi)技術(shù)與容災(zāi)機(jī)制,可以在出現(xiàn)問題時(shí)快速、低成本搭建應(yīng)急架構(gòu)。這是云計(jì)算平臺(tái)應(yīng)對可能事故的核心,而容災(zāi)機(jī)制與技術(shù)的雙重保障,也是云服務(wù)品牌的核心競爭力。
2、規(guī)范化管理流程,尤其涉及數(shù)據(jù)問題時(shí)的人工操作流量。騰訊云事件中可以看出,人為不規(guī)范操作是造成很多重大損失的起因。而嚴(yán)格的流程化和去人工可能是較好的解決方案。
保障數(shù)據(jù),企業(yè)用戶也需配合
云計(jì)算平臺(tái)自然也不是萬能的。對于用戶來說,選擇合理的服務(wù)體系、積極做好兀余和備份工作,是進(jìn)一步降低風(fēng)險(xiǎn)的舉措。
另一方面,云計(jì)算服務(wù)中還有一項(xiàng)功能,叫做云盤快照。也就是企業(yè)可以定期來復(fù)制備份自己的數(shù)據(jù),作為應(yīng)對可能性事故的備案。而恰好騰訊云還是少數(shù)定期提供免費(fèi)快照功能的云平臺(tái),為避免企業(yè)數(shù)據(jù)丟失,還是應(yīng)該積極使用類似備份功能,保證自身數(shù)據(jù)的安全存放。
同時(shí),對于核心數(shù)據(jù)來說,本地存放與云存儲(chǔ)兼顧,是公認(rèn)的更良性策略。
目前,出于市場業(yè)務(wù)細(xì)分化的需要,所有云計(jì)算平臺(tái)都在提供更細(xì)節(jié)化、碎片化的服務(wù)選項(xiàng)。但很多時(shí)候企業(yè)并不能為了節(jié)約成本而購買單一服務(wù),而是需要設(shè)置符合自身發(fā)展需求的云計(jì)算策略,并做好重要數(shù)據(jù)本地備份。
畢竟,狡兔三窟總歸不是錯(cuò)誤。
合理用云,前提是正確認(rèn)識(shí)云
綜上所述,我們可以發(fā)現(xiàn),為了解決類似問題,需要云計(jì)算平臺(tái)、企業(yè)客戶,包括行業(yè)監(jiān)管、法規(guī)定制等方向的共同努力。我們可以從以下幾個(gè)方面,看到未來化解類似矛盾的可能:
1、技術(shù)層面,更加簡便優(yōu)質(zhì)的容災(zāi)備份服務(wù)顯然是主流。而在今天快速迭代的云計(jì)算體系中,通過技術(shù)保障進(jìn)一步加強(qiáng)企業(yè)數(shù)據(jù)保障并不是奢望。而更加扎實(shí)的平臺(tái)管理能力,和快速調(diào)查事故原因的能力與執(zhí)行規(guī)則,也是平臺(tái)企業(yè)未來需要提供的用戶價(jià)值。
2、權(quán)責(zé)分明的服務(wù)關(guān)系。類似案件中,平臺(tái)故障當(dāng)然是主因。但企業(yè)事故也可能最終導(dǎo)致數(shù)據(jù)危險(xiǎn)。
因此,平臺(tái)方向企業(yè)方提供明確的風(fēng)險(xiǎn)提示,并建議做好關(guān)鍵數(shù)據(jù)備份;企業(yè)方購買符合自身發(fā)展需求,較為合理的云計(jì)算業(yè)務(wù)體系,都是避免最終矛盾的解決方案。另外很多云計(jì)算業(yè)務(wù),其實(shí)都來自企業(yè)應(yīng)用層面的問題,那么責(zé)權(quán)如何進(jìn)一步劃分,也是應(yīng)該解決的問題。
平臺(tái)與用戶雙方,能夠達(dá)成策略性預(yù)見,給予對方足夠的尊重,并一切有規(guī)可循,才是類似問題的最終解決辦法。
一棍子打死云計(jì)算,或者把云計(jì)算捧殺到萬能的地步,事實(shí)上都是毫無益處的。