日前,IBM研究團(tuán)隊(duì)成功地通過(guò)“孤立原子”(solitary atom)的方式創(chuàng)造出了全世界最小的磁體。具體的思路是,現(xiàn)有的數(shù)據(jù)存儲(chǔ)技術(shù)及硬盤(pán)在存儲(chǔ)數(shù)據(jù)時(shí),大多需通過(guò)磁頭磁化磁層上的介質(zhì),每存儲(chǔ)1bit數(shù)據(jù)大約需要10萬(wàn)粒原子,而IBM通過(guò)“孤立原子”的方式,使數(shù)據(jù)存儲(chǔ)的硬盤(pán)體積縮小了1000倍。
對(duì)此,該團(tuán)隊(duì)在《自然》(Nature)雜志上發(fā)文稱(chēng),這一突破將為人類(lèi)帶來(lái)令人興奮的全新數(shù)據(jù)存儲(chǔ)系統(tǒng)。
如今,移動(dòng)計(jì)算和云計(jì)算飛速發(fā)展,全球數(shù)據(jù)量隨之猛增。數(shù)據(jù)存儲(chǔ)自然也成為重要的技術(shù)。那么,如此龐大的數(shù)據(jù)量都被儲(chǔ)存在何處?其中蘊(yùn)含怎樣的原理?目前數(shù)據(jù)存儲(chǔ)技術(shù)多有突破,但我們真的需要將所有的數(shù)據(jù)都永久保存嗎?或許對(duì)于數(shù)據(jù)存儲(chǔ),人類(lèi)要做的不只是技術(shù)上的“開(kāi)源”。
一、數(shù)據(jù)存儲(chǔ)方式多樣,全球數(shù)據(jù)量逐年遞增
在數(shù)據(jù)量快速增長(zhǎng)的背景下,容易生出一個(gè)疑問(wèn):這么多的數(shù)據(jù),究竟都被存放在何處?其實(shí)回歸本質(zhì)看這個(gè)問(wèn)題,答案非常簡(jiǎn)單,那就是“硬盤(pán)”。依此類(lèi)推可知,龐大的數(shù)據(jù)的存儲(chǔ)自然需要非常多的硬盤(pán)。
比如谷歌,其早些年的數(shù)據(jù)中心就已經(jīng)擁有上萬(wàn)塊硬盤(pán),如果按1TB(terabajt,太)的標(biāo)準(zhǔn)計(jì)量,能夠達(dá)到10PB(petabajt,拍)的數(shù)量級(jí),用于一般存儲(chǔ)可以說(shuō)綽綽有余。
而在國(guó)內(nèi),像百度云等數(shù)據(jù)存儲(chǔ)服務(wù)則開(kāi)創(chuàng)了10Gb TOR交換機(jī)、SSD(自制固態(tài)硬盤(pán))等用于大規(guī)模數(shù)據(jù)存儲(chǔ)的技術(shù)。但當(dāng)數(shù)據(jù)量開(kāi)始變得龐大,就需要以服務(wù)器作為主要存儲(chǔ)方式。
服務(wù)器能夠存儲(chǔ)數(shù)據(jù)、處理數(shù)據(jù)。通過(guò)網(wǎng)絡(luò)協(xié)議,使人們?cè)诳蛻舳丝焖佾@取存儲(chǔ)其中的數(shù)據(jù),用戶也可以上傳文件。在上傳和下載的過(guò)程中,形成了互聯(lián)網(wǎng)頻繁的數(shù)據(jù)交換,其外在體現(xiàn)是我們經(jīng)常在一些科幻影視劇中看到的信號(hào)燈瘋狂閃爍的畫(huà)面。
當(dāng)需要存儲(chǔ)的數(shù)據(jù)越來(lái)越龐大時(shí),增加硬盤(pán)、服務(wù)器和帶寬都需要非常高的成本。因而對(duì)于更龐大數(shù)據(jù)的存儲(chǔ)和處理,需要數(shù)據(jù)中心作為輔助。
在上圖中,每個(gè)柜子中的每一排都插入了大約20~40臺(tái)機(jī)器,整個(gè)數(shù)據(jù)中心就由成千上萬(wàn)臺(tái)這樣聯(lián)網(wǎng)在一起的機(jī)器構(gòu)成。不一定有硬盤(pán),但一定有處理器和內(nèi)存。
插入其中的機(jī)器
其中的硬盤(pán)每天都會(huì)有人工進(jìn)行置換,由于硬盤(pán)時(shí)常損壞,所以每份數(shù)據(jù)大概會(huì)在不同的機(jī)器中至少備份三份。數(shù)據(jù)中心的地點(diǎn)通常在地皮、水電、制冷價(jià)格較低的郊區(qū)。
這樣的技術(shù)投資自然更大,但也視情況而定。像BAT這樣的巨頭用戶基數(shù)和數(shù)據(jù)體量極為龐大,相關(guān)產(chǎn)品眾多,投資自然也隨之增加。而一些小廠商沒(méi)有龐大的數(shù)據(jù),對(duì)數(shù)據(jù)存儲(chǔ)方面的投入自然也少一些。
然而,全球數(shù)據(jù)量龐大已成趨勢(shì)。據(jù)IDC公布的調(diào)查數(shù)據(jù)顯示,未來(lái)全球數(shù)據(jù)將維持50%左右的增長(zhǎng)率,到2020年,全球數(shù)據(jù)總量將達(dá)到44ZB(十萬(wàn)億億字節(jié)),中國(guó)將達(dá)到8.6ZB,占全球的21%。
隨之而來(lái)的是大數(shù)據(jù)市場(chǎng)的繁盛,根據(jù)中國(guó)信息產(chǎn)業(yè)研究院的數(shù)據(jù)顯示,去年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模約為116億元,同比增長(zhǎng)38%,未來(lái)將以40%左右的規(guī)模高速增長(zhǎng)。
數(shù)據(jù)量的飛速增長(zhǎng)及市場(chǎng)的繁盛,需要存儲(chǔ)技術(shù)的支撐。
二、存儲(chǔ)技術(shù)取得突破,但短期內(nèi)不能實(shí)現(xiàn)商用
目前常用的數(shù)據(jù)存儲(chǔ)方式有DAS(Direct Attached Storage,直接附加存儲(chǔ))、NAS(Network Attached Storage,網(wǎng)絡(luò)附加存儲(chǔ))、SAN(Storage Area Network,局域網(wǎng)絡(luò)存儲(chǔ))等。然而面對(duì)數(shù)據(jù)量的一再龐大,縮小存儲(chǔ)介質(zhì)的體積以減少占地及投入成為了重中之重。
在IBM此次研發(fā)的“孤立原子”存儲(chǔ)方式中,運(yùn)用了曾獲諾貝爾獎(jiǎng)的STM(scanning tunneling microscopes,掃描穿隧式顯微鏡),并與Holmium(鈥原子)技術(shù)相配合,用以創(chuàng)造并監(jiān)控這一磁體,而之后的數(shù)據(jù)讀寫(xiě)操作則借助電流完成。此技術(shù)能極大縮減存儲(chǔ)介質(zhì)體積,意味著人們能將3500萬(wàn)首歌曲大小的文件存儲(chǔ)在一個(gè)信用卡大小的硬盤(pán)中。
其實(shí),IBM可以算得上是數(shù)據(jù)存儲(chǔ)技術(shù)的先驅(qū)企業(yè)之一。早在1956年就研制出了世界上第一臺(tái)計(jì)算機(jī)硬盤(pán)驅(qū)動(dòng)器“IBM305RAMAC”。1991年,IBM推出首款采用感應(yīng)式薄膠片磁阻磁頭的磁盤(pán)“0663Corsair”。
不過(guò),IBM于2003年將其數(shù)據(jù)存儲(chǔ)部門(mén)出售給日立,結(jié)束了在磁盤(pán)領(lǐng)域的歷程,如今IBM或許會(huì)借助新的數(shù)據(jù)存儲(chǔ)技術(shù)重回這一領(lǐng)域。但該項(xiàng)目的研究員Chris Lutz表示,這項(xiàng)研究離商用的距離還有數(shù)十年。
除了運(yùn)用了新技術(shù)的“孤立原子”方式,近期另一項(xiàng)大熱的數(shù)據(jù)存儲(chǔ)技術(shù)是利用DNA存儲(chǔ)數(shù)據(jù)。此種技術(shù)的優(yōu)勢(shì)在于DNA排列極為緊湊,并且不會(huì)隨時(shí)間的推移損壞或發(fā)生降解。據(jù)統(tǒng)計(jì),4克DNA就能保存人類(lèi)每年產(chǎn)生的所有數(shù)據(jù),并且存儲(chǔ)時(shí)長(zhǎng)大于100年,與傳統(tǒng)存儲(chǔ)介質(zhì)相比高出了一個(gè)數(shù)量級(jí)。
然而,與IBM新的數(shù)據(jù)存儲(chǔ)技術(shù)一樣,DNA存儲(chǔ)技術(shù)離商用同樣有著多年的距離。
面對(duì)這種狀況,除了努力研發(fā)和深耕技術(shù)之外,或許更應(yīng)該想想:我們真的需要保存全部的數(shù)據(jù)嗎?顯然不是。因此,在不斷研發(fā)和提升存儲(chǔ)技術(shù)的同時(shí),對(duì)于數(shù)據(jù)的存儲(chǔ)量也應(yīng)該適當(dāng)?shù)夭扇∫恍┛刂拼胧?/p>
三、數(shù)據(jù)存儲(chǔ)不能只顧“開(kāi)源”,“節(jié)流”同樣重要
Intel的創(chuàng)始人Gordon Moore曾說(shuō):當(dāng)價(jià)格不變時(shí),集成電路上可容納的晶體管數(shù)目,約每隔18個(gè)月便會(huì)增加一倍,性能也將提升一倍。此定律揭示了信息技術(shù)進(jìn)步的速度,即著名的“摩爾定律”。
這一定律在數(shù)據(jù)存儲(chǔ)領(lǐng)域同樣可被借鑒。信息技術(shù)不斷進(jìn)步,閃存、磁盤(pán)、數(shù)據(jù)中心、DNA等各種新的存儲(chǔ)技術(shù)不斷出現(xiàn)。可即便如此,仍難以滿足日漸龐大的數(shù)據(jù)體量的存儲(chǔ)需求,加之IoT(物聯(lián)網(wǎng))行業(yè)的發(fā)展,致使數(shù)據(jù)的體量更為驚人。
不可否認(rèn),這些數(shù)據(jù)中許多都蘊(yùn)含著價(jià)值,但也不能忽視數(shù)據(jù)的驚人體量。難道到2020年我們要將44ZB的數(shù)據(jù)全部記錄并存儲(chǔ)下來(lái)嗎?顯然是天方夜譚。物聯(lián)網(wǎng)的發(fā)展使機(jī)器能夠自行收集并保存數(shù)據(jù),但在這些數(shù)據(jù)中,真正有價(jià)值的其實(shí)并不是全部。
比如智能設(shè)備所記載的用戶數(shù)據(jù),交通工具行駛過(guò)程中產(chǎn)生的數(shù)據(jù),這類(lèi)數(shù)據(jù)在當(dāng)下可用性強(qiáng),但當(dāng)個(gè)體消失或工具報(bào)廢之后,余下的數(shù)據(jù)是總結(jié)抑或是棄之不用?這些數(shù)據(jù)要存儲(chǔ)到何時(shí)?其中需要多少費(fèi)用?這些數(shù)據(jù)的價(jià)值與存儲(chǔ)它們投入的成本是否可以成正比呢?
事實(shí)上,在這類(lèi)數(shù)據(jù)中,人們只看一次的比例超過(guò)90%。因此在這個(gè)每天產(chǎn)生大量數(shù)據(jù)的時(shí)代,要學(xué)會(huì)優(yōu)先提煉重要數(shù)據(jù),對(duì)于邊緣化的數(shù)據(jù)應(yīng)適當(dāng)摒棄。在數(shù)據(jù)的存儲(chǔ)和摒棄之間找到一個(gè)平衡點(diǎn),能夠使數(shù)據(jù)產(chǎn)生更高的價(jià)值。
在信息高速發(fā)展的時(shí)代,大數(shù)據(jù)的作用愈發(fā)重要。一方面,人類(lèi)在努力“開(kāi)源”,研發(fā)新的數(shù)據(jù)存儲(chǔ)技術(shù),以便適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展。但另一方面,“節(jié)流”同樣重要。分清主次,找到數(shù)據(jù)存儲(chǔ)價(jià)值的最高點(diǎn),有助于提升效率,節(jié)省投入,更好地推動(dòng)大數(shù)據(jù)時(shí)代的進(jìn)一步發(fā)展。