上一篇我們看到“大數(shù)據(jù)”已經(jīng)深入到我們的日常生活中。在進(jìn)一步介紹“大數(shù)據(jù)”技術(shù)前,我們先來(lái)了解一下“大數(shù)據(jù)”到底有多大。
我們常聽(tīng)到各種表示數(shù)據(jù)大小的單位,例如網(wǎng)絡(luò)下載速度是每秒“50KB”,手機(jī)包月流量為“100MB”,視頻文件大小為“1.8GB”,移動(dòng)硬盤的容量為“2TB”。這些單位是什么意思,到底包含多少數(shù)據(jù)呢?
注意這些單位都以字母B結(jié)尾,B是英文字母“Byte”的縮寫(xiě),中文叫做“字節(jié)”。1字節(jié)由8比特構(gòu)成,每個(gè)比特要么是0要么是1。因此“2B”除了用來(lái)罵人外,也可表示2個(gè)字節(jié)或16比特的數(shù)據(jù)。
1KB等于 1024字節(jié),或大約一千字節(jié)。K是一個(gè)較小的數(shù)據(jù)單位,例如一篇500字左右的作文大約有1KB的信息,而普通人的月收入一般為幾K元。
1MB(兆字節(jié))等于1024KB,或大約一百萬(wàn)字節(jié)。從數(shù)據(jù)的角度來(lái)看,M不算一個(gè)大單位。例如,一張普通圖片只有1MB左右。但如果某人的年收入超過(guò)1M元,他就是年薪百萬(wàn)的富人了。
1GB(吉字節(jié))等于1024MB,或大約十億字節(jié)。即使從數(shù)據(jù)的角度,G也算一個(gè)較大的單位。例如,一個(gè)8GB的U盤可以裝下2000本《天龍八部》,而比爾·蓋茨的個(gè)人財(cái)產(chǎn)也只有幾十G美元。
1TB(太字節(jié))等于1024GB,或大約一萬(wàn)億字節(jié)。2014年個(gè)人移動(dòng)硬盤的容量約為1TB。T是一個(gè)很大的單位,只有少數(shù)國(guó)家的GDP超過(guò)1T美元。例如中國(guó)2014年的GDP約為10T美元。
盡管1T已經(jīng)是很大的數(shù),但在許多人看來(lái)這還稱不上“大數(shù)據(jù)”。PB是比TB更大的單位。1PB(拍字節(jié))等于1024TB,或大約1千萬(wàn)億字節(jié)。傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)不能高效地處理1PB的數(shù)據(jù),因?yàn)閮H僅向磁盤寫(xiě)入1PB的數(shù)據(jù)就要耗費(fèi)200多天。而全人類的總資產(chǎn)也不到1P美元。
再往下,1EB(艾字節(jié))等于1024PB,1ZB(澤字節(jié))等于約1百萬(wàn)PB或約十萬(wàn)億億字節(jié)。1ZB到底有多大呢?如果將這些數(shù)據(jù)用標(biāo)準(zhǔn)的光盤來(lái)存貯,大約可以堆成5堆光盤,每一堆都可以從地球伸到月球。據(jù)估計(jì),到2020年,全球總數(shù)據(jù)量將超過(guò)40ZB。表1列出了從1K到1Z的相應(yīng)例子。
表1. 從1KB到1Z:數(shù)量與舉例
英文 |
中文 |
2n |
數(shù)量 |
10n |
財(cái)富 |
人體 |
信息量 |
1K |
千 |
10 |
千 |
3 |
普通人的月收入約為5K |
人的肌肉數(shù)目約為0.6K |
一篇作文約為1KB |
1M |
兆 |
20 |
百萬(wàn) |
6 |
富翁的年收入約為1M |
人的頭發(fā)數(shù)目約為0.1M |
一張照片約為1MB |
1G |
吉 |
30 |
十億 |
9 |
比爾·蓋茨的資產(chǎn)約為70G |
人類DNA的堿基數(shù)目約為6G |
一部電影約為1GB |
1T |
太 |
40 |
萬(wàn)億 |
12 |
中國(guó)2014年的GDP為10T美元 |
人體內(nèi)包含的細(xì)胞數(shù)目約50T |
淘寶每天新產(chǎn)生的圖片約20TB |
1P |
拍 |
50 |
千萬(wàn)億 |
15 |
-- |
人類腦神經(jīng)元的連接數(shù)約為1P |
百度每天處理的數(shù)據(jù)約為20PB |
1E |
艾 |
60 |
百億億 |
18 |
-- |
-- |
全人類至今講過(guò)的話語(yǔ)約為5EB |
1Z |
澤 |
70 |
十萬(wàn)億億 |
21 |
-- |
-- |
2020年全球的數(shù)據(jù)總量預(yù)計(jì)達(dá)40ZB |
為什么人類能產(chǎn)生如此龐大的數(shù)據(jù)?著名的摩爾定律可以解釋這一現(xiàn)象。戈登·摩爾是Intel公司的創(chuàng)始人之一。他曾在1965年的一篇論文中提到“過(guò)去十年,硅芯片上的晶體管數(shù)目每年增加一倍”。在過(guò)去幾十年中,數(shù)據(jù)量也基本按這一規(guī)律增加。以我個(gè)人為例,1995年讀初中時(shí),我使用的個(gè)人存儲(chǔ)是一張軟盤,其存儲(chǔ)大小為1MB。時(shí)至2015年,我的個(gè)人存儲(chǔ)變成移動(dòng)硬盤,其存儲(chǔ)大小為1TB。也就是說(shuō),在過(guò)去20年中,我擁有的數(shù)據(jù)量增加了一百萬(wàn)倍。我在1995年的個(gè)人財(cái)產(chǎn)大約為100元,如果財(cái)富也按摩爾定律增長(zhǎng),那么我今天的財(cái)產(chǎn)就會(huì)達(dá)到1億元。
那到底多大的數(shù)據(jù)才稱得上“大數(shù)據(jù)”呢?其實(shí)答案要視應(yīng)用而定。例如,對(duì)于一般的文檔處理系統(tǒng),1TB的文檔就可稱作大數(shù)據(jù);但對(duì)于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng),可能100TB的數(shù)據(jù)才算大數(shù)據(jù)。從應(yīng)用的角度來(lái)看,當(dāng)數(shù)據(jù)量大到傳統(tǒng)技術(shù)難以處理時(shí),就可稱為“大數(shù)據(jù)”了。此外,數(shù)據(jù)能否稱為“大數(shù)據(jù)”,還要看數(shù)據(jù)的復(fù)雜性以及產(chǎn)生數(shù)據(jù)的速度等特征。在下一篇中,我們一起來(lái)看下大數(shù)據(jù)到底有哪些應(yīng)用和特征。