近年來,移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算的快速發(fā)展催生并積累了大量的用戶、業(yè)務(wù)數(shù)據(jù)。據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)IDC預(yù)計(jì),未來全球數(shù)據(jù)總量年增長(zhǎng)率將維持在50%左右,到2020年,全球數(shù)據(jù)總量將達(dá)到40ZB。據(jù)統(tǒng)計(jì),這些海量數(shù)據(jù)中只有10%~15%的數(shù)據(jù)是被經(jīng)常訪問的,而絕大部分都會(huì)在產(chǎn)生之后逐漸變冷。這些“冷數(shù)據(jù)”的訪問率雖然很低,但用戶還是希望保留這些數(shù)據(jù),對(duì)于企業(yè)而言,還有很多數(shù)據(jù)需要進(jìn)行備份和存檔。
且不管數(shù)據(jù)的冷熱及其冗余備份,如果將這40ZB的數(shù)據(jù)都使用目前已量產(chǎn)的最大容量藍(lán)光盤來存儲(chǔ),按照單盤容量300GB計(jì)算,則需要1300多億張盤;如果使用10TB的機(jī)械硬盤來存儲(chǔ),需要40億個(gè)硬盤;如果采用磁帶庫(kù)來存儲(chǔ),目前也有量產(chǎn)的10TB磁帶,按照這個(gè)存儲(chǔ)能力計(jì)算,也需要40億個(gè)磁帶。這不僅為數(shù)據(jù)存儲(chǔ)行業(yè)帶來了巨大的市場(chǎng)空間,同時(shí)也對(duì)海量數(shù)據(jù)的存儲(chǔ)、處理和管理能力提出了前所未有的挑戰(zhàn)。
海量冷數(shù)據(jù)存儲(chǔ)面臨諸多挑戰(zhàn)
首先,面對(duì)快速增長(zhǎng)的數(shù)據(jù)存儲(chǔ)需求,成本是需研究的首要問題。如果只從物理上增加存儲(chǔ)容量,則必然導(dǎo)致存儲(chǔ)數(shù)據(jù)的成本持續(xù)、快速增加,且將受制于機(jī)房空間、供電能力等其他因素而難以為繼。
其次,是冷熱數(shù)據(jù)的分級(jí)。業(yè)界根據(jù)數(shù)據(jù)的訪問頻次將數(shù)據(jù)分為熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù),但具體到海量的數(shù)據(jù),哪些屬于冷數(shù)據(jù),應(yīng)該相應(yīng)采用什么存儲(chǔ)策略、存儲(chǔ)方式,則是一個(gè)需要長(zhǎng)期研究探索、實(shí)踐積累的問題。
再者,海量的已存數(shù)據(jù)的維護(hù)也成為新的挑戰(zhàn)。一方面需要定期檢測(cè)存儲(chǔ)介質(zhì)的健康情況及數(shù)據(jù)的完整性,在發(fā)現(xiàn)壞盤的情況下及時(shí)進(jìn)行更換;另一方面是數(shù)據(jù)的搬遷,存儲(chǔ)介質(zhì)大都有相對(duì)固定的使用壽命,在設(shè)備生命周期結(jié)束之后,需要將數(shù)據(jù)遷移到新的存儲(chǔ)介質(zhì)上。
海量數(shù)據(jù)的價(jià)值體現(xiàn)是又一挑戰(zhàn)。海量數(shù)據(jù)的存儲(chǔ)必然占用一定的成本,而數(shù)據(jù)的存儲(chǔ)價(jià)值并非只是為了保存,而是在需要的時(shí)候能夠被盡可能快地找到。為用戶提供盡可能好的訪問體驗(yàn),這就要求海量數(shù)據(jù)存儲(chǔ)具備可快速查詢的能力。
最后,數(shù)據(jù)的安全也是海量冷數(shù)據(jù)存儲(chǔ)的一大挑戰(zhàn)。一方面是數(shù)據(jù)的可靠性,即數(shù)據(jù)的冗余備份。數(shù)據(jù)的存儲(chǔ)最基本的要求就是數(shù)據(jù)不丟失,目前最常用的辦法就是對(duì)數(shù)據(jù)進(jìn)行多副本的冗余保存,或者采用可恢復(fù)數(shù)據(jù)的校驗(yàn)方法。這種冗余存儲(chǔ)在本來就海量的基礎(chǔ)上又增加了一定比例的數(shù)據(jù)量,而海量數(shù)據(jù)的存儲(chǔ)通常需要大量的存儲(chǔ)設(shè)備和其他配套設(shè)備,在相同的故障概率下,可能發(fā)生故障的設(shè)備也就相應(yīng)較多,因此這些設(shè)備的定期巡檢、故障定位和維修更換,都因“海量”而極具挑戰(zhàn)。另一方面是數(shù)據(jù)的隱私保護(hù),即數(shù)據(jù)的訪問權(quán)限控制。由于大量的數(shù)據(jù)被聚集在一起,當(dāng)發(fā)生數(shù)據(jù)泄露時(shí),泄露的數(shù)據(jù)將會(huì)更多,甚至可能包括比攻擊目標(biāo)更加重要的數(shù)據(jù)。此外,海量的數(shù)據(jù)也增加了數(shù)據(jù)被篡改的風(fēng)險(xiǎn),影響數(shù)據(jù)的實(shí)際價(jià)值。
為了實(shí)現(xiàn)用盡可能低的成本獲得盡可能持久、敏捷、可靠、安全的數(shù)據(jù)存儲(chǔ),海量冷數(shù)據(jù)的存儲(chǔ)面臨著諸多挑戰(zhàn),同時(shí)也給產(chǎn)業(yè)鏈上下游企業(yè)帶來了更多的發(fā)展機(jī)遇,從存儲(chǔ)介質(zhì)、控制器、數(shù)據(jù)中心等硬件技術(shù),到數(shù)據(jù)分級(jí)、數(shù)據(jù)壓縮、冗余備份等軟件技術(shù),相關(guān)企業(yè)都在進(jìn)行相應(yīng)的技術(shù)攻關(guān),也取得了很多突破性的發(fā)展。
海量冷數(shù)據(jù)存儲(chǔ)的關(guān)鍵技術(shù)
一是數(shù)據(jù)的分級(jí),主要是指從海量的數(shù)據(jù)中根據(jù)文件的訪問頻率、價(jià)值等因素,進(jìn)行冷熱數(shù)據(jù)的分類,甚至分出更細(xì)的數(shù)據(jù)類型,如“溫?cái)?shù)據(jù)”、“冰數(shù)據(jù)”等。目前常見的數(shù)據(jù)分級(jí)方法主要有兩類,一類是業(yè)務(wù)數(shù)據(jù)的分類,即基于具體的業(yè)務(wù)類型,結(jié)合長(zhǎng)期以來的運(yùn)營(yíng)經(jīng)驗(yàn),進(jìn)行運(yùn)營(yíng)級(jí)的數(shù)據(jù)分類。另一類是基于數(shù)據(jù)存取特性的分類,即借助存儲(chǔ)軟件系統(tǒng)自動(dòng)進(jìn)行數(shù)據(jù)的冷熱分級(jí)。通過存儲(chǔ)軟件系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行冷熱監(jiān)控,統(tǒng)計(jì)分析一個(gè)時(shí)間周期內(nèi)的IO冷熱程度,并按照設(shè)定的分類策略自動(dòng)進(jìn)行數(shù)據(jù)的分類,并將冷數(shù)據(jù)從前端業(yè)務(wù)存儲(chǔ)系統(tǒng)遷移到冷數(shù)據(jù)存儲(chǔ)系統(tǒng)。
二是存儲(chǔ)密度的提升,幾乎所有的存儲(chǔ)部件廠商都在努力通過提升單盤的存儲(chǔ)容量來應(yīng)對(duì)數(shù)據(jù)的快速增長(zhǎng)。在磁、光存儲(chǔ)密度快速提升的同時(shí),電存儲(chǔ)也表現(xiàn)出色,32TB的SSD盤已經(jīng)問世,且預(yù)計(jì)未來還有更大的增長(zhǎng)空間。
三是數(shù)據(jù)的壓縮去重,提高有效數(shù)據(jù)的存儲(chǔ)比例。為了提升數(shù)據(jù)存儲(chǔ)的可靠性,通常會(huì)對(duì)數(shù)據(jù)進(jìn)行多副本存儲(chǔ),但多副本的方式會(huì)帶來存儲(chǔ)數(shù)據(jù)量的倍增。為了進(jìn)一步提升存儲(chǔ)效率,在一些讀寫性能要求較低的場(chǎng)景下,可以選擇只保存校驗(yàn)數(shù)據(jù)。
四是運(yùn)營(yíng)能力的提升,海量數(shù)據(jù)的存儲(chǔ)需要更智能化的運(yùn)維系統(tǒng),包括對(duì)數(shù)據(jù)的定期巡檢、數(shù)據(jù)的精細(xì)化分類、自動(dòng)化的數(shù)據(jù)遷移、故障預(yù)測(cè)及定位、設(shè)備的休眠等機(jī)房節(jié)能措施。此外,存儲(chǔ)的架構(gòu)設(shè)計(jì)也是當(dāng)前的研究熱點(diǎn),包括設(shè)備的分級(jí)、存儲(chǔ)介質(zhì)的選型、數(shù)據(jù)存儲(chǔ)格式、數(shù)據(jù)檢索、對(duì)外服務(wù)接口等。
此外,數(shù)據(jù)訪問延遲、整體讀取速率以及數(shù)據(jù)持久性等,也是海量冷數(shù)據(jù)存儲(chǔ)的關(guān)鍵技術(shù)。這些關(guān)鍵技術(shù)相互制約影響,尤其是在運(yùn)營(yíng)能力提升方面,涉及的因素眾多,對(duì)冷數(shù)據(jù)存儲(chǔ)的選型提出了新的挑戰(zhàn)。
海量冷數(shù)據(jù)存儲(chǔ)選型策略
國(guó)內(nèi)外大型互聯(lián)網(wǎng)企業(yè)已根據(jù)自身的業(yè)務(wù)特點(diǎn),結(jié)合多年的運(yùn)營(yíng)經(jīng)驗(yàn)和業(yè)務(wù)預(yù)測(cè),進(jìn)行存儲(chǔ)架構(gòu)的整體設(shè)計(jì),并基于其在冷存儲(chǔ)方面的經(jīng)驗(yàn)和技術(shù)積累,對(duì)外提供了相關(guān)的冷數(shù)據(jù)存儲(chǔ)服務(wù)。以亞馬遜網(wǎng)絡(luò)服務(wù)推出的“AWS冰川”數(shù)據(jù)存儲(chǔ)服務(wù)為例,用戶可以采用它來存儲(chǔ)無限量的數(shù)據(jù),并建立存儲(chǔ)庫(kù)列表進(jìn)行管理,包括各種檔案的生命周期管理和訪問策略。此外,還有谷歌公司提供的“近線云存儲(chǔ)”服務(wù),以及微軟公司提供的“CoolBlob”存儲(chǔ)產(chǎn)品,都是具有一定代表性的海量冷數(shù)據(jù)存儲(chǔ)服務(wù),而它們都有一個(gè)共同的特點(diǎn)就是“無限量”。
對(duì)于數(shù)據(jù)量較小且在快速增長(zhǎng)的企業(yè)而言,可以選擇使用一部分的云存儲(chǔ)服務(wù),同時(shí)也逐步探索建設(shè)自己的數(shù)據(jù)存儲(chǔ)中心。
海量冷數(shù)據(jù)存儲(chǔ)的關(guān)鍵還在于運(yùn)營(yíng),在于存儲(chǔ)策略和業(yè)務(wù)需求的匹配程度,因此,還需積極參與各種社區(qū)、聯(lián)盟組織活動(dòng),借助產(chǎn)業(yè)發(fā)展的力量,更多地借鑒先行者的經(jīng)驗(yàn),了解行業(yè)的技術(shù)發(fā)展情況,及時(shí)更新制定適合自身需求的存儲(chǔ)架構(gòu)和技術(shù)路線。