2001年,高德納分析員道格·萊尼在一份與其2001年的研究相關(guān)的演講中指出,數(shù)據(jù)增長(zhǎng)有三個(gè)方向的挑戰(zhàn)和機(jī)遇:量(Volume),即數(shù)據(jù)多少;速(Velocity),即資料輸入、輸出的速度;類(Variety),即多樣性。
在萊尼的理論基礎(chǔ)上,IBM提出大數(shù)據(jù)的4V特征?得到了業(yè)界的廣泛認(rèn)可。第一,數(shù)量(Volume),即數(shù)據(jù)巨大,從TB級(jí)別躍升到PB級(jí)別;第二,多樣性(Variety),即數(shù)據(jù)類型繁多,不僅包括傳統(tǒng)的格式化數(shù)據(jù),還包括來自互聯(lián)網(wǎng)的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等;第三,速度(Velocity),即處理速度快;第四,真實(shí)性(Veracity),即追求高質(zhì)量的數(shù)據(jù)。雖然不同學(xué)者、不同研究機(jī)構(gòu)對(duì)大數(shù)據(jù)的定義不盡相同,但都廣泛提及了這4個(gè)基本特征。
大容量天文學(xué)和基因?qū)W是最早產(chǎn)生大數(shù)據(jù)變革的領(lǐng)域。2000年,斯隆數(shù)字巡天項(xiàng)目啟動(dòng)時(shí),位于新墨西哥州的望遠(yuǎn)鏡在短短幾周內(nèi)搜集到的數(shù)據(jù)已經(jīng)比天文學(xué)歷史上總共搜集的數(shù)據(jù)還要多;在智利的大型視場(chǎng)全景巡天望遠(yuǎn)鏡一旦于2016年投入使用,其在5天之內(nèi)搜集到的信息量將相當(dāng)于前者10年的信息檔案。2003年,人類第一次破譯人體基因密碼時(shí),用了10年才完成了30億對(duì)堿基對(duì)的排序;而在10年之后,世界范圍內(nèi)的基因儀15分鐘就可以完成同樣的工作量。
伴隨著各種隨身設(shè)備、物聯(lián)網(wǎng)和云計(jì)算、云存儲(chǔ)等技術(shù)的發(fā)展,人和物的所有軌跡都可以被記錄,數(shù)據(jù)因此被大量生產(chǎn)出來。移動(dòng)互聯(lián)網(wǎng)的核心網(wǎng)絡(luò)節(jié)點(diǎn)是人,不再是網(wǎng)頁(yè)。人人都成為數(shù)據(jù)制造者,短信、微博、照片、錄像都是其數(shù)據(jù)產(chǎn)品;數(shù)據(jù)來自無數(shù)自動(dòng)化傳感器、自動(dòng)記錄設(shè)施、生產(chǎn)監(jiān)測(cè)、環(huán)境監(jiān)測(cè)、交通監(jiān)測(cè)、安防監(jiān)測(cè)等;來自自動(dòng)流程記錄,刷卡機(jī)、收款機(jī)、電子不停車收費(fèi)系統(tǒng),互聯(lián)網(wǎng)點(diǎn)擊、電話撥號(hào)等設(shè)施以及各種辦事流程登記等。大量自動(dòng)或人工產(chǎn)生的數(shù)據(jù)通過互聯(lián)網(wǎng)聚集到特定地點(diǎn),包括電信運(yùn)營(yíng)商、互聯(lián)網(wǎng)運(yùn)營(yíng)商、政府、銀行、商場(chǎng)、企業(yè)、交通樞紐等機(jī)構(gòu),形成了大數(shù)據(jù)之海。
我們周圍到底有多少數(shù)據(jù)?數(shù)據(jù)量的增長(zhǎng)速度有多快?許多人試圖測(cè)量出一個(gè)確切的數(shù)字。
2011年,馬丁·希爾伯特和普里西利亞·洛佩茲在《科學(xué)》上發(fā)表了一篇文章,對(duì)1986 ~2007年人類所創(chuàng)造、存儲(chǔ)和傳播的一切信息數(shù)量進(jìn)行了追蹤計(jì)算。其研究范圍大約涵蓋了60種模擬和數(shù)字技術(shù):書籍、圖畫、信件、電子郵件、照片、音樂、視頻(模擬和數(shù)字)、電子游戲、電話、汽車導(dǎo)航等。
據(jù)他們估算:2007年,人類大約存儲(chǔ)了超過300EB的數(shù)據(jù);1986~2007年,全球數(shù)據(jù)存儲(chǔ)能力每年提高23%,雙向通信能力每年提高28%,通用計(jì)算能力每年提高58%;預(yù)計(jì)到2013年,世界上存儲(chǔ)的數(shù)據(jù)能達(dá)到約1.2ZB。
這樣大的數(shù)據(jù)量意味著什么?據(jù)估算,如果把這些數(shù)據(jù)全部記在書中,這些書可以覆蓋整個(gè)美國(guó)52次。如果存儲(chǔ)在只讀光盤上,這些光盤可以堆成5堆,每堆都可以伸到月球。在公元前3世紀(jì),希臘時(shí)代最著名的圖書館亞歷山大圖書館竭力搜集了當(dāng)時(shí)其所能搜集到的書寫作品,可以代表當(dāng)時(shí)世界上其所能搜集到的知識(shí)量。但當(dāng)數(shù)字?jǐn)?shù)據(jù)洪流席卷世界之后,每個(gè)人都可以獲得大量數(shù)據(jù)信息,相當(dāng)于當(dāng)時(shí)亞歷山大圖書館存儲(chǔ)的數(shù)據(jù)總量的320倍之多。