2017年5月18-19日,CSDN主辦的中國(guó)云計(jì)算技術(shù)大會(huì)(CCTC)在北京朝陽(yáng)門悠唐皇冠假日酒店盛裝啟航。本次會(huì)議踐行“云先行,智未來”的主題,在Keynote環(huán)節(jié)之外精心策劃了微服務(wù)、人工智能、云核心三大論壇及Spark、Container、區(qū)塊鏈、大數(shù)據(jù)四大技術(shù)峰會(huì),眾多技術(shù)社區(qū)骨干、典型行業(yè)案例代表齊聚京師,解讀本年度國(guó)內(nèi)外云計(jì)算技術(shù)發(fā)展最新趨勢(shì),深度剖析云計(jì)算與大數(shù)據(jù)核心技術(shù)和架構(gòu),聚焦云計(jì)算技術(shù)在金融、電商、制造、能源等垂直領(lǐng)域的深度實(shí)踐和應(yīng)用,全程高能不斷檔,干貨滿滿精彩紛呈。
在18日的Keynote上,UCloud塊存儲(chǔ)研發(fā)部副總監(jiān)彭晶鑫帶來分享《重新定義云數(shù)據(jù)保護(hù)》,講述數(shù)據(jù)故障的狀況下數(shù)據(jù)如何失而復(fù)得。在本次CCTC采訪間,我們也有幸邀請(qǐng)到他進(jìn)行了專訪,深入時(shí)下云數(shù)據(jù)保護(hù)中的技術(shù)要點(diǎn)。
UCloud塊存儲(chǔ)研發(fā)部副總監(jiān) 彭晶鑫
彭晶鑫,上海交通大學(xué)研究生畢業(yè),2011加入百度,11年-14年期間負(fù)責(zé)移動(dòng)云應(yīng)用服務(wù)后端多項(xiàng)研發(fā)工作。目前就職于UCloud,任塊存儲(chǔ)研發(fā)部副總監(jiān),負(fù)責(zé)塊存儲(chǔ)研發(fā)部研發(fā)和運(yùn)營(yíng)工作,主要包括云硬盤和數(shù)據(jù)方舟。對(duì)服務(wù)后端技術(shù)、存儲(chǔ)技術(shù)有相當(dāng)豐富的研發(fā)經(jīng)驗(yàn)。
方舟護(hù)航,致力數(shù)據(jù)保護(hù)CSDN:首先請(qǐng)介紹下您所在的團(tuán)隊(duì)以及目前的工作重點(diǎn)。
彭晶鑫:我目前所在的團(tuán)隊(duì)是UCloud塊存儲(chǔ)團(tuán)隊(duì),主要的工作是分布式云盤和數(shù)據(jù)保護(hù)產(chǎn)品的研發(fā)。分布式云盤是我們部門的一個(gè)重頭產(chǎn)品,主要替代一些傳統(tǒng)的方案,比如本地盤的方式,云盤通過分布式的架構(gòu)為云主機(jī)提供持久化存儲(chǔ)空間的塊設(shè)備硬盤, 云硬盤數(shù)據(jù)在后臺(tái)都存有多份冗余,并實(shí)時(shí)同步,具備高可用特性,不受單機(jī)故障的影響。數(shù)據(jù)方舟就是一種連續(xù)數(shù)據(jù)保護(hù)產(chǎn)品,它可以讓數(shù)據(jù)恢復(fù)到過去12小時(shí)的任一秒,24小時(shí)的任一小時(shí),還有三天內(nèi)的任一個(gè)零點(diǎn)。
CSDN:現(xiàn)在WannaCry勒索病毒成為大家關(guān)注的焦點(diǎn),您覺得數(shù)據(jù)保護(hù)有怎樣的作用?包括哪些形式?
彭晶鑫:通常所說的數(shù)據(jù)保護(hù),大多數(shù)情況下是指我們的數(shù)據(jù)怎么不被別人所訪問到,或者我們?cè)趺捶乐购诳凸簟⒉《竟舻姆绞健5鋵?shí)還有非常重要的一塊,如果出現(xiàn)意外的情況(黑客攻擊,硬件故障,誤操作等等)導(dǎo)致數(shù)據(jù)出現(xiàn)問題,應(yīng)該怎么找回?cái)?shù)據(jù)?怎么把數(shù)據(jù)回檔到發(fā)生問題前的前一秒或者前幾秒?這種形式目前在業(yè)界還沒有一個(gè)非常好的解決方案。
UCloud數(shù)據(jù)方舟解讀,技術(shù)要點(diǎn)全剖析CSDN:對(duì)比其它的形式,云數(shù)據(jù)保護(hù)涉及哪些技術(shù)?
彭晶鑫:大多數(shù)云數(shù)據(jù)保護(hù)都會(huì)存在一個(gè)痛點(diǎn),比如WannaCry病毒:當(dāng)感染了病毒后,即使交納了贖金,數(shù)據(jù)也不一定能夠得到恢復(fù)。但現(xiàn)有的一些備份策略,比如說一天前、兩天前甚至幾個(gè)月前把數(shù)據(jù)備份到另外一種介質(zhì)上,真的遇上這種事情時(shí),當(dāng)恢復(fù)完成之后就會(huì)發(fā)現(xiàn)數(shù)據(jù)變成一個(gè)月前的了,中間一個(gè)月的數(shù)據(jù)可能完全丟失,這對(duì)用戶來說是比較大的損失。
我們UCloud的數(shù)據(jù)方舟產(chǎn)品,就是從技術(shù)上解決用戶的這個(gè)痛點(diǎn)。數(shù)據(jù)方舟通過旁路將磁盤的每時(shí)每刻的IO記錄下來,并通過更好的技術(shù)架構(gòu)保證較快的回滾速度。后端通過分層架構(gòu)引入混合存儲(chǔ):實(shí)時(shí)的I/O可以通過高速設(shè)備去存儲(chǔ),非實(shí)時(shí)的I/O可以通過HDD的方式,通過它自身的順序讀寫來發(fā)揮威力。另外,數(shù)據(jù)方舟2.0 通過更好的架構(gòu),充分發(fā)揮后端集群能力。更好的加快數(shù)據(jù)回滾的速度。當(dāng)用戶面臨需要回滾的場(chǎng)景時(shí),讓客戶更快的找回?cái)?shù)據(jù)。
CSDN:UCloud數(shù)據(jù)方舟主要的應(yīng)用場(chǎng)景有哪些?
彭晶鑫:一個(gè)場(chǎng)景是工程師在線上維護(hù)時(shí),很有可能因操作不當(dāng)而將數(shù)據(jù)誤刪掉,如果沒有恰當(dāng)?shù)膫浞莘绞剑蜔o(wú)法把數(shù)據(jù)恢復(fù)出來。另外一個(gè)場(chǎng)景是機(jī)器故障,比如硬件故障引起的數(shù)據(jù)丟失,這種場(chǎng)景下如何快速回滾到故障前的狀態(tài)也是非常關(guān)鍵的。還有一個(gè)場(chǎng)景是最近比較聞名的WannaCry病毒,比特幣病毒,感染病毒后數(shù)據(jù)無(wú)法獲取,必須按照病毒團(tuán)隊(duì)的指示去操作。其他場(chǎng)景如運(yùn)維不當(dāng)(誤刪數(shù)據(jù)),臟數(shù)據(jù),機(jī)器故障,黑客或是病毒攻擊等等,這些場(chǎng)景下數(shù)據(jù)方舟都有非常好的實(shí)用價(jià)值。
CSDN:您演講的議題是關(guān)于重新定義云數(shù)據(jù)保護(hù),請(qǐng)介紹下“新”在哪里?
彭晶鑫:在目前的行業(yè)中,一般的策略是在每天業(yè)務(wù)的巔峰期打一個(gè)快照。比如凌晨三點(diǎn)是我的業(yè)務(wù)巔峰期,我對(duì)磁盤制作一個(gè)快照,如果晚上七點(diǎn)的時(shí)候突然遇到如上所說的誤刪數(shù)據(jù)、機(jī)器故障,黑客攻擊三種場(chǎng)景,它就只能把數(shù)據(jù)回滾到凌晨三點(diǎn)的備份。甚至很多時(shí)候,一些客戶的數(shù)據(jù)會(huì)回滾到幾天甚至幾個(gè)月前。
UCloud數(shù)據(jù)方舟的重新定義,其“新”就在于它不需要用戶過多的操作和策略設(shè)置就可以通過較快的速度完成12小時(shí)內(nèi)任一秒的數(shù)據(jù)回滾而實(shí)現(xiàn)最佳的恢復(fù)效果。比如七點(diǎn)遇到問題的時(shí)候,那么數(shù)據(jù)就可以恢復(fù)到6點(diǎn)59分59秒,或者是59分五十幾秒這么一種狀態(tài)。
亮點(diǎn)及創(chuàng)新之處就在于一是復(fù)原時(shí)間點(diǎn)的保障,二是速度的保證,能夠快速恢復(fù)到任意秒。假如一個(gè)1T大小的磁盤數(shù)據(jù),在業(yè)界回滾一般需要七至八個(gè)小時(shí),但是UCloud數(shù)據(jù)方舟基本可以在30分鐘內(nèi)完成。另外,數(shù)據(jù)方舟還有一個(gè)優(yōu)勢(shì)特點(diǎn),如果回滾之前用戶的磁盤遇到了問題,用戶當(dāng)時(shí)的磁盤數(shù)據(jù)我們并不會(huì)去修改,而會(huì)回滾到一個(gè)新的磁盤上。這種方式能更好地保障我們客戶的數(shù)據(jù),即使客戶后悔,之前的數(shù)據(jù)也能夠留存。總的來說,我們?cè)诎褦?shù)據(jù)恢復(fù)到新盤上的同時(shí),還保證它的速度是非常快的,更快挽回客戶損失,在這兩點(diǎn)上重新定義數(shù)據(jù)的保護(hù)。這在目前的云計(jì)算行業(yè)也是獨(dú)家的。
CSDN:在架構(gòu)設(shè)計(jì)上UCloud有過什么樣的考量?有沒有特別設(shè)計(jì)一些應(yīng)用場(chǎng)景?
彭晶鑫:除去上面提到的大量I/O寫、成本、快速恢復(fù)等考量點(diǎn),我們UCloud希望用戶不管是什么樣的應(yīng)用,不管磁盤上部署了什么樣的業(yè)務(wù),都能通過數(shù)據(jù)方舟回滾。這個(gè)回滾是針對(duì)塊存儲(chǔ)和塊設(shè)備的,即磁盤上任一應(yīng)用都可以利用方舟去做到任一秒的回滾,這也是我們重新定義的地方。
在技術(shù)上,為了扛住大量的IOPS,及成本上的考量,我們引入了分層的混合存儲(chǔ)方式:第一層是為了扛住大量的隨機(jī)IOPS,即磁盤大量的I/O寫操作;第二層采用了比較傳統(tǒng)的HDD設(shè)備,存儲(chǔ)一些不是非常熱的數(shù)據(jù)。兩者結(jié)合既能扛住大量的隨機(jī)IOPS,又能節(jié)省一定的成本。
另外在存儲(chǔ)的時(shí)候,我們還充分利用了后端集群的能力:比如調(diào)度到集群的任一節(jié)點(diǎn)去做實(shí)時(shí)計(jì)算,把計(jì)算結(jié)果匯聚成所需要的恢復(fù);比如恢復(fù)到某時(shí)間點(diǎn)的一個(gè)數(shù)據(jù),最終通過分布式的存儲(chǔ)和計(jì)算來加快速度,這也是架構(gòu)設(shè)計(jì)的一個(gè)考量。
CSDN:在具體實(shí)施過程中有沒有遇到過比較棘手的問題?UCloud是如何解決的?
彭晶鑫:現(xiàn)在數(shù)據(jù)方舟已經(jīng)推出了2.0版本。在1.0中,我們考慮了怎么幫我們的用戶回滾到任一秒,但當(dāng)時(shí)并沒有考慮到怎么快速回滾,這是1.0版本的一個(gè)問題。在2.0版本中,我們通過更好的架構(gòu)設(shè)計(jì)充分發(fā)揮后端集群的能力,并加速回滾速度。
防微杜漸,聚焦數(shù)據(jù)保護(hù)新征程CSDN:作為企業(yè)的開發(fā)者、安全人員,您對(duì)于安全這一塊有沒有什么建議?包括運(yùn)維過程中有沒有好的方法和大家分享?
彭晶鑫:從數(shù)據(jù)保護(hù)的這個(gè)角度出發(fā),在運(yùn)維中最基礎(chǔ)的是要加上一些備份的策略和方式。此外,最好讓數(shù)據(jù)回滾到比較恰當(dāng)?shù)臅r(shí)間點(diǎn)。另外,在運(yùn)維架構(gòu)、技術(shù)方案選型,都需要融入數(shù)據(jù)可能丟失的考慮,從而需要去選取更好的備份策略,例如數(shù)據(jù)方舟這種連續(xù)數(shù)據(jù)保護(hù)產(chǎn)品,這樣才能更好地避免業(yè)務(wù)損失。
CCTC 2017相關(guān)鏈接:官方網(wǎng)站:http://cctc.csdn.net/
圖文直播:http://special.csdncms.csdn.net/CCTC2017/
PPT下載合集:http://download.csdn.net/meeting/meeting_detail/29
Keynote視頻回放:http://v.csdn.hudong.com/CCTC2017