精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

大數(shù)據(jù),小數(shù)據(jù),哪道才是你的菜

責(zé)任編輯:editor005 作者:張玉宏 |來源:企業(yè)網(wǎng)D1Net  2015-08-17 14:15:56 本文摘自:數(shù)盟

美國著名科技?xì)v史學(xué)家梅爾文?克蘭茲伯格(Melvin Kranzberg),曾提出過大名鼎鼎的科技六定律,其中第三條定律是這樣的[1]:“技術(shù)是總是配“套”而來的,但這個(gè)“套”有大有小(Technology comes in packages, big and small)”。

這個(gè)定律用在當(dāng)下,是非常應(yīng)景的。因?yàn)椋覀冋饺胍粋€(gè)“大數(shù)據(jù)(big data)”時(shí)代,但對(duì)于以往的“小數(shù)據(jù)(small data)”,我們能做到“事了拂衣去,深藏身與名”嗎?答案顯然不是。目前,大數(shù)據(jù)的前途似乎“星光燦爛”,但小數(shù)據(jù)的價(jià)值依然“風(fēng)采無限”。克蘭茲伯格的第三定律是告訴我們,新技術(shù)和老技術(shù)的自我革新演變,是交織在一起的。大數(shù)據(jù)和小數(shù)據(jù),他們“配套而來”,共同勾畫數(shù)據(jù)技術(shù)(Data Technology,DT)時(shí)代的未來。

對(duì)大數(shù)據(jù)的“溢美之詞”,已被舍恩伯格教授、涂子沛先生等先行者及其追隨者夸得泛濫成災(zāi)。但正如您所知,任何事情都有兩面性。在眾人都贊大數(shù)據(jù)很好的時(shí)候,我們也需說道說道大數(shù)據(jù)可能面臨的陷阱,只是為了讓大數(shù)據(jù)能走得更穩(wěn)。當(dāng)在大數(shù)據(jù)的光暈下,漸行漸遠(yuǎn)漸無小數(shù)據(jù)時(shí),我們也聊聊小數(shù)據(jù)之美,為的是“大小并行,不可偏廢”。大有大的好,小有小的妙,如同一桌菜,哪道才是你的愛?思量三番再下筷。

下文部分就是供讀者“思量”的材料,主要分為4個(gè)部分:(1)哪個(gè)V才是大數(shù)據(jù)最重要的特征?在這一部分里,我們聊聊大數(shù)據(jù)的4V特征中,哪個(gè)V才是大數(shù)據(jù)最貼切的特征,這是整個(gè)文章的行文基礎(chǔ)。(2)大數(shù)據(jù)的力量與陷阱。在這一部分,我們聊聊大數(shù)據(jù)整體的力量之美及可能面臨的3個(gè)陷阱。(3)今日王謝堂前燕,暫未飛入百姓家,在這一部分,我們要說明,大數(shù)據(jù)雖然很火,但我們用數(shù)據(jù)發(fā)聲,用事實(shí)說話,大數(shù)據(jù)真的沒有那么普及,小數(shù)據(jù)目前還是主流。(4)你若安好,便是晴天。在這一部分,我們說說的小數(shù)據(jù)之美,如果用“n=all”來代表大數(shù)據(jù),那么就可以用“n=me”來說明小數(shù)據(jù)(這里n表示數(shù)據(jù)大小),我們將會(huì)看到,小數(shù)據(jù)更是關(guān)系到我們的切身利益。

1.哪個(gè)V才是大數(shù)據(jù)最重要的特征?

在談及大數(shù)據(jù)時(shí),人們通常用4V來描述其特征,即4個(gè)以V為首字母的英文:Volume(大量)、Variety(多樣)、Velocity(速快)及Value(價(jià)值)。如果 “閑來無事”,我們非要對(duì)這4個(gè)V在“兵器譜”上排排名,哪個(gè)才是大數(shù)據(jù)的貼切的特征呢?下面我們簡要地說道說道,力圖說出點(diǎn)新意,分析的結(jié)果或許會(huì)出乎您的意料之外。

1.1 “大”有不同——Volume(大量)

首先我們來說說大數(shù)據(jù)的第一個(gè)V——Volume(大量)。雖然數(shù)據(jù)規(guī)模巨大且持續(xù)保持高速增長,通常作為大數(shù)據(jù)的第一個(gè)特征。但事實(shí)上,早在20年前,在當(dāng)時(shí)的IT環(huán)境下,天文、氣象、高能物理、基因工程等領(lǐng)域的科研數(shù)據(jù)量,已是這些領(lǐng)域無法承受的“體積”之痛,當(dāng)時(shí)實(shí)時(shí)計(jì)算的難度不比現(xiàn)在小,因?yàn)槟菚r(shí)的存儲(chǔ)計(jì)算能力差,亦沒有成熟的云計(jì)算架構(gòu)和充分的計(jì)算資源。

況且,“大”本身就是一個(gè)相對(duì)的概念,數(shù)據(jù)的大與小,通常都打著很強(qiáng)的時(shí)代烙印。為了說明這個(gè)觀點(diǎn),讓我們先回顧一下比爾?蓋茨的經(jīng)典“錯(cuò)誤”預(yù)測(cè)。


圖1 比爾 蓋茨于1981年對(duì)內(nèi)存大小的預(yù)測(cè)

早在1981年,作為當(dāng)時(shí)的IT精英,比爾?蓋茨曾預(yù)測(cè)說,“640KB的內(nèi)存對(duì)每個(gè)人都應(yīng)該足夠了(640KB ought to be enough for anybody)”。但30多年后的今天,很多人都會(huì)笑話蓋茨,這么聰明的人,怎么會(huì)預(yù)測(cè)地如此不靠譜,現(xiàn)在隨便一個(gè)智能手機(jī)(或筆記本電腦)的內(nèi)存的大小都是4GB、8GB的。

但是,需要注意的事實(shí)是,在1981年,當(dāng)時(shí)的個(gè)人計(jì)算機(jī)(PC)是基于英特爾CPU 8088芯片的,這種CPU是基于8/16位(bit)混合構(gòu)架的處理器,因此,640KB已經(jīng)是這類CPU所能支持的尋址空間的理論極限(64KB)的 10倍[2],換句話說,640K在當(dāng)時(shí)是非常非常地龐大了!再回到現(xiàn)在,當(dāng)前PC機(jī)的CPU基本都是64bit的,其理論支持的尋址空間是2^64,而現(xiàn)在的4G內(nèi)存,僅僅是理論極限的(2^32)/(2^64)= 1/(2^32)而!。

在這里,講這個(gè)小故事的原因在于,衡量數(shù)據(jù)大小,不能脫離時(shí)代背景,不能脫離行業(yè)特征。此外,大數(shù)據(jù)布道者舍恩伯格教授在其著作《大數(shù)據(jù)時(shí)代》中指出[3],大數(shù)據(jù)在某種程度上,可理解為“全數(shù)據(jù)(即n=all)”。有時(shí),一個(gè)所謂的“全”數(shù)據(jù)庫,并不需要有以TB/PB計(jì)的數(shù)據(jù)。在有些案例中,某個(gè)“全”數(shù)據(jù)庫大小,可能還不如一張普通的僅有幾個(gè)兆字節(jié)(MB)數(shù)碼照片大,但相對(duì)于以前的“部分”數(shù)據(jù),這個(gè)只有幾個(gè)兆字節(jié)(MB)大小的“全”數(shù)據(jù),就是大數(shù)據(jù)。故此,大數(shù)據(jù)之“大”,取義為相對(duì)意義,而非絕對(duì)意義。

這樣看來,互聯(lián)網(wǎng)巨頭的PB級(jí)數(shù)據(jù),可算是大數(shù)據(jù),幾個(gè)MB的全數(shù)據(jù)也可算是大數(shù)據(jù),如此一來,大數(shù)據(jù)之“大”——“大”有不同,可大可小,如此不“靠譜”,反而不能算作大數(shù)據(jù)最貼切的特征。

1.2 數(shù)據(jù)共征——“Velocity(快速)”與“Value(價(jià)值)”

英特爾中國研究院院長吳甘沙先生曾指出,大數(shù)據(jù)的特征“Velocity(快速)”,猶如“天下武功,唯快不破”一樣,要講究個(gè)“快”字。為什么要“快”?因?yàn)闀r(shí)間就是金錢。如果說價(jià)值是分子,那么時(shí)間就是分母,分母越小,單位價(jià)值就越大。面臨同樣大的數(shù)據(jù)“礦山”,“挖礦”效率是競爭優(yōu)勢(shì)。

不過,青年學(xué)者周濤教授卻認(rèn)為[4],1秒鐘算出來根本就不是大數(shù)據(jù)的特征,因?yàn)?ldquo;算得越快越好”,是人類自打有計(jì)算這件事情以來,就沒有變化過,而現(xiàn)在,卻把它作為一個(gè)新時(shí)代的主要特征,完全是無稽之談。筆者也更傾向于這個(gè)說法,把一個(gè)計(jì)算上的“通識(shí)”要求,算作一個(gè)新生事物的特征,確實(shí)欠妥。

類似不妥的還有大數(shù)據(jù)的另外一個(gè)特征——Value(價(jià)值)。事實(shí)上,“數(shù)據(jù)即價(jià)值”的價(jià)值觀古來有之。例如,在《孫子兵法?始計(jì)篇》中,早就有這樣的論斷“多算勝,少算不勝,而況于無算乎?”此處 “算”,乃算籌也,也就是計(jì)數(shù)用的籌碼,它講得就是,如何利用數(shù)字,來估計(jì)各種因素,從而做出決策。

在馬陵之戰(zhàn)中,孫臏通過編造“齊軍入魏地為十萬灶,明日為五萬灶,又明日為三萬灶(史記·孫子吳起列傳)”的數(shù)據(jù),利用龐涓的數(shù)據(jù)分析習(xí)慣,反其道而用之,對(duì)龐涓實(shí)施誘殺。

話說還有一個(gè)關(guān)于林彪將軍的段子(真假不可考),在遼沈戰(zhàn)役中,林大將軍通過分析繳獲的短槍與長槍比例、繳獲和擊毀小車與大車比例,以及俘虜和擊斃的軍官與士兵的比例“異常”,因此得出結(jié)論,敵人的指揮所就在附近!果不其然,通過追擊從胡家窩棚逃走的那部分?jǐn)橙耍钭絿顸h主帥新六軍軍長廖耀湘。

在戰(zhàn)場上,數(shù)據(jù)的價(jià)值——就是輔助決策來獲勝。還有一點(diǎn)值得注意的是,在上面的案例中,戰(zhàn)場上的數(shù)據(jù),神機(jī)妙算的軍師們,都能“掐指一算”——這顯然屬于十足的小數(shù)據(jù)!但網(wǎng)上卻流傳有很多諸如“林彪也玩大數(shù)據(jù)”、“跟著林彪學(xué)習(xí)大數(shù)據(jù)”等類似的文章,這就純屬扯淡了。如果凡是有點(diǎn)數(shù)據(jù)分析思維的案例,都?xì)w屬于大數(shù)據(jù)的話,那大數(shù)據(jù)的案例,古往今來,可真是數(shù)不勝數(shù)了。

因此,Value(價(jià)值)實(shí)在不能算是大數(shù)據(jù)專享的特征,“小數(shù)據(jù)”也是有價(jià)值的。在下文第4節(jié)的分析中,我們可以看到,小數(shù)據(jù)對(duì)個(gè)人而言,“價(jià)值”更是不容小覷。這樣一來,如果大、小數(shù)據(jù)都有價(jià)值,何以“價(jià)值”成為大數(shù)據(jù)的特征呢?事實(shí)上,睿智的IBM,在對(duì)大數(shù)據(jù)的特征概括中,壓根就沒有“Value”這個(gè)V(如圖2所示)。


圖2 IBM公司給出的大數(shù)據(jù)3V特征

我們知道,所謂“特征”者,乃事物異于它物之特點(diǎn)”。打個(gè)比方,如果我們說“有鼻子有眼是男人的特征”,您可能就會(huì)覺得不妥:“難道女人就沒有鼻子沒有眼睛嗎?”是的,“有鼻子有眼”是男人和女人的“共征”,而非“特征”。同樣的道理,Velocity 和Value這兩個(gè)V字頭詞匯,是大、小數(shù)據(jù)都能有的“共征”, 實(shí)在也不算不上是大數(shù)據(jù)最貼切的特征。

1.3五彩繽“紛”——Variety(多樣)

通常認(rèn)為,大數(shù)據(jù)的多樣性(Variety),是指數(shù)據(jù)種類多樣。其最簡單的種類劃分,莫過于分為兩大類:結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)在“非結(jié)構(gòu)化數(shù)據(jù)”占到整個(gè)數(shù)據(jù)比例的70%~80%。早期的非結(jié)構(gòu)化數(shù)據(jù),在企業(yè)數(shù)據(jù)的語境里,可以包括諸如電子郵件、文檔、健康、醫(yī)療記錄等非結(jié)構(gòu)化文本。隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)(Internet of things,IoT)的快速發(fā)展,現(xiàn)在的非結(jié)構(gòu)化數(shù)據(jù)又?jǐn)U展到諸如網(wǎng)頁、社交媒體、音頻、視頻、圖片、感知數(shù)據(jù)等,這詮釋了數(shù)據(jù)的形式多樣性。

但倘若深究下去,就會(huì)發(fā)現(xiàn),“非結(jié)構(gòu)化”未必就是個(gè)成立的概念。在信息中,“結(jié)構(gòu)化”是永存的。而所謂的“非結(jié)構(gòu)化”,不過是某些結(jié)構(gòu)尚未被人清晰的描述出來而已。美國IT咨詢公司Alta Plana的高級(jí)數(shù)據(jù)分析師Seth Grimes曾在IT領(lǐng)域著名刊物《信息周刊》(Information Week)撰文指出:不存在所謂的非結(jié)構(gòu)化,現(xiàn)在所說的“非結(jié)構(gòu)化”,應(yīng)該是非模型化(unmodeled),結(jié)構(gòu)本在,只是人們處理數(shù)據(jù)的功力未到,未建模而已(Most unstructured data is merely unmodeled)[5](如圖3所示)。


圖3 Seth Grimes:非結(jié)構(gòu)化乎,不!應(yīng)是非建模

大數(shù)據(jù)的多樣性(Variety),還體現(xiàn)在數(shù)據(jù)質(zhì)量的參差不齊上。換句話說,這個(gè)語境下的多樣性就是混雜性(Messy),即數(shù)據(jù)里混有雜質(zhì)(或稱噪音)。大數(shù)據(jù)的混雜性,基本上是不可避免的,既可能是數(shù)據(jù)產(chǎn)生者在產(chǎn)生數(shù)據(jù)過程出現(xiàn)了問題,也可能是采集或存儲(chǔ)過程存在問題。如果這些數(shù)據(jù)噪音是偶然的,那么在大數(shù)據(jù)中,它一定會(huì)被更多的正確數(shù)據(jù)淹沒掉,這樣就使得大數(shù)據(jù)具備一定的容錯(cuò)性;如果噪音存在規(guī)律性,那么在具備足夠多的數(shù)據(jù)后,就有機(jī)會(huì)發(fā)現(xiàn)這個(gè)規(guī)律,從而可有規(guī)律的“清洗數(shù)據(jù)”,把噪音過濾掉。吳甘沙先生認(rèn)為[15],多元抑制的數(shù)據(jù),能夠過濾噪聲、去偽存真,即為辯訛。更多有關(guān)混雜性的精彩描述,讀者還可批判性地參閱舍恩伯格教授的大著《大數(shù)據(jù)時(shí)代》[3]。

事實(shí)上,大數(shù)據(jù)的多樣性(Variety),最重要的一面,還是表現(xiàn)在數(shù)據(jù)的來源多和用途多上。每一種數(shù)據(jù)來源,都有其一定的片面性和局限性,只有融合、集成多方面的數(shù)據(jù),才能反映事物的全貌。事物的本質(zhì)和規(guī)律隱藏在各種原始數(shù)據(jù)的相互關(guān)聯(lián)之中。對(duì)同一個(gè)問題,不同的數(shù)據(jù)能提供互補(bǔ)信息,可對(duì)問題有更為深入的理解。因此在大數(shù)據(jù)分析中,匯集盡量多種來源的數(shù)據(jù)是關(guān)鍵。中國工程院李國杰院士認(rèn)為[6],這非常類似于錢學(xué)森老先生提出的“大成智慧學(xué)”,“必集大成,才能得智慧”。

著名歷史學(xué)家許倬云先生,站在歷史的高度,也給出了自己的觀點(diǎn),他說“大數(shù)據(jù)”之所以能稱之為“大數(shù)據(jù)”,就在于,其將各種分散的數(shù)據(jù),彼此聯(lián)系,由點(diǎn)而線,由線而面,由面而層次,以瞻見更完整的覆蓋面,也更清楚地理解事物的本質(zhì)和未來取向。

英國數(shù)學(xué)家及人類學(xué)家托馬斯·克倫普(Thomas Crump)在其著作《數(shù)字人類學(xué)》The(Anthropology of Numbers)指出[7],數(shù)據(jù)的本質(zhì)是人,分析數(shù)據(jù)就是在分析人類族群自身,數(shù)據(jù)背后一定要還原為人。東南大學(xué)知名哲學(xué)教授呂乃基先生認(rèn)為[8],雖然每個(gè)數(shù)據(jù)來源因其單項(xiàng)而顯得模糊,然而由“無限的模糊”所帶來的聚焦成像,會(huì)比“有限的精確”更準(zhǔn)確。“人是社會(huì)關(guān)系的總和(馬克思語)”。 大數(shù)據(jù)利用自己的“多樣性”,比以往任何時(shí)候都趨于揭示這樣的“總和”。

因此,李國杰院士認(rèn)為[6],數(shù)據(jù)的開放共享,提供了多種來源的數(shù)據(jù)融合機(jī)會(huì),它不是錦上添花的事,而是決定大數(shù)據(jù)成敗的必要前提。

從上分析可見,雖然大數(shù)據(jù)有很多特征(甚至有人整出個(gè)11個(gè)V來),但大數(shù)據(jù)的多樣性(Variety),無疑它是區(qū)分以往小數(shù)據(jù)的最重要特征。

關(guān)鍵字:馬陵之戰(zhàn)數(shù)據(jù)比例數(shù)據(jù)融合

本文摘自:數(shù)盟

x 大數(shù)據(jù),小數(shù)據(jù),哪道才是你的菜 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

大數(shù)據(jù),小數(shù)據(jù),哪道才是你的菜

責(zé)任編輯:editor005 作者:張玉宏 |來源:企業(yè)網(wǎng)D1Net  2015-08-17 14:15:56 本文摘自:數(shù)盟

美國著名科技?xì)v史學(xué)家梅爾文?克蘭茲伯格(Melvin Kranzberg),曾提出過大名鼎鼎的科技六定律,其中第三條定律是這樣的[1]:“技術(shù)是總是配“套”而來的,但這個(gè)“套”有大有小(Technology comes in packages, big and small)”。

這個(gè)定律用在當(dāng)下,是非常應(yīng)景的。因?yàn)椋覀冋饺胍粋€(gè)“大數(shù)據(jù)(big data)”時(shí)代,但對(duì)于以往的“小數(shù)據(jù)(small data)”,我們能做到“事了拂衣去,深藏身與名”嗎?答案顯然不是。目前,大數(shù)據(jù)的前途似乎“星光燦爛”,但小數(shù)據(jù)的價(jià)值依然“風(fēng)采無限”。克蘭茲伯格的第三定律是告訴我們,新技術(shù)和老技術(shù)的自我革新演變,是交織在一起的。大數(shù)據(jù)和小數(shù)據(jù),他們“配套而來”,共同勾畫數(shù)據(jù)技術(shù)(Data Technology,DT)時(shí)代的未來。

對(duì)大數(shù)據(jù)的“溢美之詞”,已被舍恩伯格教授、涂子沛先生等先行者及其追隨者夸得泛濫成災(zāi)。但正如您所知,任何事情都有兩面性。在眾人都贊大數(shù)據(jù)很好的時(shí)候,我們也需說道說道大數(shù)據(jù)可能面臨的陷阱,只是為了讓大數(shù)據(jù)能走得更穩(wěn)。當(dāng)在大數(shù)據(jù)的光暈下,漸行漸遠(yuǎn)漸無小數(shù)據(jù)時(shí),我們也聊聊小數(shù)據(jù)之美,為的是“大小并行,不可偏廢”。大有大的好,小有小的妙,如同一桌菜,哪道才是你的愛?思量三番再下筷。

下文部分就是供讀者“思量”的材料,主要分為4個(gè)部分:(1)哪個(gè)V才是大數(shù)據(jù)最重要的特征?在這一部分里,我們聊聊大數(shù)據(jù)的4V特征中,哪個(gè)V才是大數(shù)據(jù)最貼切的特征,這是整個(gè)文章的行文基礎(chǔ)。(2)大數(shù)據(jù)的力量與陷阱。在這一部分,我們聊聊大數(shù)據(jù)整體的力量之美及可能面臨的3個(gè)陷阱。(3)今日王謝堂前燕,暫未飛入百姓家,在這一部分,我們要說明,大數(shù)據(jù)雖然很火,但我們用數(shù)據(jù)發(fā)聲,用事實(shí)說話,大數(shù)據(jù)真的沒有那么普及,小數(shù)據(jù)目前還是主流。(4)你若安好,便是晴天。在這一部分,我們說說的小數(shù)據(jù)之美,如果用“n=all”來代表大數(shù)據(jù),那么就可以用“n=me”來說明小數(shù)據(jù)(這里n表示數(shù)據(jù)大小),我們將會(huì)看到,小數(shù)據(jù)更是關(guān)系到我們的切身利益。

1.哪個(gè)V才是大數(shù)據(jù)最重要的特征?

在談及大數(shù)據(jù)時(shí),人們通常用4V來描述其特征,即4個(gè)以V為首字母的英文:Volume(大量)、Variety(多樣)、Velocity(速快)及Value(價(jià)值)。如果 “閑來無事”,我們非要對(duì)這4個(gè)V在“兵器譜”上排排名,哪個(gè)才是大數(shù)據(jù)的貼切的特征呢?下面我們簡要地說道說道,力圖說出點(diǎn)新意,分析的結(jié)果或許會(huì)出乎您的意料之外。

1.1 “大”有不同——Volume(大量)

首先我們來說說大數(shù)據(jù)的第一個(gè)V——Volume(大量)。雖然數(shù)據(jù)規(guī)模巨大且持續(xù)保持高速增長,通常作為大數(shù)據(jù)的第一個(gè)特征。但事實(shí)上,早在20年前,在當(dāng)時(shí)的IT環(huán)境下,天文、氣象、高能物理、基因工程等領(lǐng)域的科研數(shù)據(jù)量,已是這些領(lǐng)域無法承受的“體積”之痛,當(dāng)時(shí)實(shí)時(shí)計(jì)算的難度不比現(xiàn)在小,因?yàn)槟菚r(shí)的存儲(chǔ)計(jì)算能力差,亦沒有成熟的云計(jì)算架構(gòu)和充分的計(jì)算資源。

況且,“大”本身就是一個(gè)相對(duì)的概念,數(shù)據(jù)的大與小,通常都打著很強(qiáng)的時(shí)代烙印。為了說明這個(gè)觀點(diǎn),讓我們先回顧一下比爾?蓋茨的經(jīng)典“錯(cuò)誤”預(yù)測(cè)。


圖1 比爾 蓋茨于1981年對(duì)內(nèi)存大小的預(yù)測(cè)

早在1981年,作為當(dāng)時(shí)的IT精英,比爾?蓋茨曾預(yù)測(cè)說,“640KB的內(nèi)存對(duì)每個(gè)人都應(yīng)該足夠了(640KB ought to be enough for anybody)”。但30多年后的今天,很多人都會(huì)笑話蓋茨,這么聰明的人,怎么會(huì)預(yù)測(cè)地如此不靠譜,現(xiàn)在隨便一個(gè)智能手機(jī)(或筆記本電腦)的內(nèi)存的大小都是4GB、8GB的。

但是,需要注意的事實(shí)是,在1981年,當(dāng)時(shí)的個(gè)人計(jì)算機(jī)(PC)是基于英特爾CPU 8088芯片的,這種CPU是基于8/16位(bit)混合構(gòu)架的處理器,因此,640KB已經(jīng)是這類CPU所能支持的尋址空間的理論極限(64KB)的 10倍[2],換句話說,640K在當(dāng)時(shí)是非常非常地龐大了!再回到現(xiàn)在,當(dāng)前PC機(jī)的CPU基本都是64bit的,其理論支持的尋址空間是2^64,而現(xiàn)在的4G內(nèi)存,僅僅是理論極限的(2^32)/(2^64)= 1/(2^32)而!。

在這里,講這個(gè)小故事的原因在于,衡量數(shù)據(jù)大小,不能脫離時(shí)代背景,不能脫離行業(yè)特征。此外,大數(shù)據(jù)布道者舍恩伯格教授在其著作《大數(shù)據(jù)時(shí)代》中指出[3],大數(shù)據(jù)在某種程度上,可理解為“全數(shù)據(jù)(即n=all)”。有時(shí),一個(gè)所謂的“全”數(shù)據(jù)庫,并不需要有以TB/PB計(jì)的數(shù)據(jù)。在有些案例中,某個(gè)“全”數(shù)據(jù)庫大小,可能還不如一張普通的僅有幾個(gè)兆字節(jié)(MB)數(shù)碼照片大,但相對(duì)于以前的“部分”數(shù)據(jù),這個(gè)只有幾個(gè)兆字節(jié)(MB)大小的“全”數(shù)據(jù),就是大數(shù)據(jù)。故此,大數(shù)據(jù)之“大”,取義為相對(duì)意義,而非絕對(duì)意義。

這樣看來,互聯(lián)網(wǎng)巨頭的PB級(jí)數(shù)據(jù),可算是大數(shù)據(jù),幾個(gè)MB的全數(shù)據(jù)也可算是大數(shù)據(jù),如此一來,大數(shù)據(jù)之“大”——“大”有不同,可大可小,如此不“靠譜”,反而不能算作大數(shù)據(jù)最貼切的特征。

1.2 數(shù)據(jù)共征——“Velocity(快速)”與“Value(價(jià)值)”

英特爾中國研究院院長吳甘沙先生曾指出,大數(shù)據(jù)的特征“Velocity(快速)”,猶如“天下武功,唯快不破”一樣,要講究個(gè)“快”字。為什么要“快”?因?yàn)闀r(shí)間就是金錢。如果說價(jià)值是分子,那么時(shí)間就是分母,分母越小,單位價(jià)值就越大。面臨同樣大的數(shù)據(jù)“礦山”,“挖礦”效率是競爭優(yōu)勢(shì)。

不過,青年學(xué)者周濤教授卻認(rèn)為[4],1秒鐘算出來根本就不是大數(shù)據(jù)的特征,因?yàn)?ldquo;算得越快越好”,是人類自打有計(jì)算這件事情以來,就沒有變化過,而現(xiàn)在,卻把它作為一個(gè)新時(shí)代的主要特征,完全是無稽之談。筆者也更傾向于這個(gè)說法,把一個(gè)計(jì)算上的“通識(shí)”要求,算作一個(gè)新生事物的特征,確實(shí)欠妥。

類似不妥的還有大數(shù)據(jù)的另外一個(gè)特征——Value(價(jià)值)。事實(shí)上,“數(shù)據(jù)即價(jià)值”的價(jià)值觀古來有之。例如,在《孫子兵法?始計(jì)篇》中,早就有這樣的論斷“多算勝,少算不勝,而況于無算乎?”此處 “算”,乃算籌也,也就是計(jì)數(shù)用的籌碼,它講得就是,如何利用數(shù)字,來估計(jì)各種因素,從而做出決策。

在馬陵之戰(zhàn)中,孫臏通過編造“齊軍入魏地為十萬灶,明日為五萬灶,又明日為三萬灶(史記·孫子吳起列傳)”的數(shù)據(jù),利用龐涓的數(shù)據(jù)分析習(xí)慣,反其道而用之,對(duì)龐涓實(shí)施誘殺。

話說還有一個(gè)關(guān)于林彪將軍的段子(真假不可考),在遼沈戰(zhàn)役中,林大將軍通過分析繳獲的短槍與長槍比例、繳獲和擊毀小車與大車比例,以及俘虜和擊斃的軍官與士兵的比例“異常”,因此得出結(jié)論,敵人的指揮所就在附近!果不其然,通過追擊從胡家窩棚逃走的那部分?jǐn)橙耍钭絿顸h主帥新六軍軍長廖耀湘。

在戰(zhàn)場上,數(shù)據(jù)的價(jià)值——就是輔助決策來獲勝。還有一點(diǎn)值得注意的是,在上面的案例中,戰(zhàn)場上的數(shù)據(jù),神機(jī)妙算的軍師們,都能“掐指一算”——這顯然屬于十足的小數(shù)據(jù)!但網(wǎng)上卻流傳有很多諸如“林彪也玩大數(shù)據(jù)”、“跟著林彪學(xué)習(xí)大數(shù)據(jù)”等類似的文章,這就純屬扯淡了。如果凡是有點(diǎn)數(shù)據(jù)分析思維的案例,都?xì)w屬于大數(shù)據(jù)的話,那大數(shù)據(jù)的案例,古往今來,可真是數(shù)不勝數(shù)了。

因此,Value(價(jià)值)實(shí)在不能算是大數(shù)據(jù)專享的特征,“小數(shù)據(jù)”也是有價(jià)值的。在下文第4節(jié)的分析中,我們可以看到,小數(shù)據(jù)對(duì)個(gè)人而言,“價(jià)值”更是不容小覷。這樣一來,如果大、小數(shù)據(jù)都有價(jià)值,何以“價(jià)值”成為大數(shù)據(jù)的特征呢?事實(shí)上,睿智的IBM,在對(duì)大數(shù)據(jù)的特征概括中,壓根就沒有“Value”這個(gè)V(如圖2所示)。


圖2 IBM公司給出的大數(shù)據(jù)3V特征

我們知道,所謂“特征”者,乃事物異于它物之特點(diǎn)”。打個(gè)比方,如果我們說“有鼻子有眼是男人的特征”,您可能就會(huì)覺得不妥:“難道女人就沒有鼻子沒有眼睛嗎?”是的,“有鼻子有眼”是男人和女人的“共征”,而非“特征”。同樣的道理,Velocity 和Value這兩個(gè)V字頭詞匯,是大、小數(shù)據(jù)都能有的“共征”, 實(shí)在也不算不上是大數(shù)據(jù)最貼切的特征。

1.3五彩繽“紛”——Variety(多樣)

通常認(rèn)為,大數(shù)據(jù)的多樣性(Variety),是指數(shù)據(jù)種類多樣。其最簡單的種類劃分,莫過于分為兩大類:結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)在“非結(jié)構(gòu)化數(shù)據(jù)”占到整個(gè)數(shù)據(jù)比例的70%~80%。早期的非結(jié)構(gòu)化數(shù)據(jù),在企業(yè)數(shù)據(jù)的語境里,可以包括諸如電子郵件、文檔、健康、醫(yī)療記錄等非結(jié)構(gòu)化文本。隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)(Internet of things,IoT)的快速發(fā)展,現(xiàn)在的非結(jié)構(gòu)化數(shù)據(jù)又?jǐn)U展到諸如網(wǎng)頁、社交媒體、音頻、視頻、圖片、感知數(shù)據(jù)等,這詮釋了數(shù)據(jù)的形式多樣性。

但倘若深究下去,就會(huì)發(fā)現(xiàn),“非結(jié)構(gòu)化”未必就是個(gè)成立的概念。在信息中,“結(jié)構(gòu)化”是永存的。而所謂的“非結(jié)構(gòu)化”,不過是某些結(jié)構(gòu)尚未被人清晰的描述出來而已。美國IT咨詢公司Alta Plana的高級(jí)數(shù)據(jù)分析師Seth Grimes曾在IT領(lǐng)域著名刊物《信息周刊》(Information Week)撰文指出:不存在所謂的非結(jié)構(gòu)化,現(xiàn)在所說的“非結(jié)構(gòu)化”,應(yīng)該是非模型化(unmodeled),結(jié)構(gòu)本在,只是人們處理數(shù)據(jù)的功力未到,未建模而已(Most unstructured data is merely unmodeled)[5](如圖3所示)。


圖3 Seth Grimes:非結(jié)構(gòu)化乎,不!應(yīng)是非建模

大數(shù)據(jù)的多樣性(Variety),還體現(xiàn)在數(shù)據(jù)質(zhì)量的參差不齊上。換句話說,這個(gè)語境下的多樣性就是混雜性(Messy),即數(shù)據(jù)里混有雜質(zhì)(或稱噪音)。大數(shù)據(jù)的混雜性,基本上是不可避免的,既可能是數(shù)據(jù)產(chǎn)生者在產(chǎn)生數(shù)據(jù)過程出現(xiàn)了問題,也可能是采集或存儲(chǔ)過程存在問題。如果這些數(shù)據(jù)噪音是偶然的,那么在大數(shù)據(jù)中,它一定會(huì)被更多的正確數(shù)據(jù)淹沒掉,這樣就使得大數(shù)據(jù)具備一定的容錯(cuò)性;如果噪音存在規(guī)律性,那么在具備足夠多的數(shù)據(jù)后,就有機(jī)會(huì)發(fā)現(xiàn)這個(gè)規(guī)律,從而可有規(guī)律的“清洗數(shù)據(jù)”,把噪音過濾掉。吳甘沙先生認(rèn)為[15],多元抑制的數(shù)據(jù),能夠過濾噪聲、去偽存真,即為辯訛。更多有關(guān)混雜性的精彩描述,讀者還可批判性地參閱舍恩伯格教授的大著《大數(shù)據(jù)時(shí)代》[3]。

事實(shí)上,大數(shù)據(jù)的多樣性(Variety),最重要的一面,還是表現(xiàn)在數(shù)據(jù)的來源多和用途多上。每一種數(shù)據(jù)來源,都有其一定的片面性和局限性,只有融合、集成多方面的數(shù)據(jù),才能反映事物的全貌。事物的本質(zhì)和規(guī)律隱藏在各種原始數(shù)據(jù)的相互關(guān)聯(lián)之中。對(duì)同一個(gè)問題,不同的數(shù)據(jù)能提供互補(bǔ)信息,可對(duì)問題有更為深入的理解。因此在大數(shù)據(jù)分析中,匯集盡量多種來源的數(shù)據(jù)是關(guān)鍵。中國工程院李國杰院士認(rèn)為[6],這非常類似于錢學(xué)森老先生提出的“大成智慧學(xué)”,“必集大成,才能得智慧”。

著名歷史學(xué)家許倬云先生,站在歷史的高度,也給出了自己的觀點(diǎn),他說“大數(shù)據(jù)”之所以能稱之為“大數(shù)據(jù)”,就在于,其將各種分散的數(shù)據(jù),彼此聯(lián)系,由點(diǎn)而線,由線而面,由面而層次,以瞻見更完整的覆蓋面,也更清楚地理解事物的本質(zhì)和未來取向。

英國數(shù)學(xué)家及人類學(xué)家托馬斯·克倫普(Thomas Crump)在其著作《數(shù)字人類學(xué)》The(Anthropology of Numbers)指出[7],數(shù)據(jù)的本質(zhì)是人,分析數(shù)據(jù)就是在分析人類族群自身,數(shù)據(jù)背后一定要還原為人。東南大學(xué)知名哲學(xué)教授呂乃基先生認(rèn)為[8],雖然每個(gè)數(shù)據(jù)來源因其單項(xiàng)而顯得模糊,然而由“無限的模糊”所帶來的聚焦成像,會(huì)比“有限的精確”更準(zhǔn)確。“人是社會(huì)關(guān)系的總和(馬克思語)”。 大數(shù)據(jù)利用自己的“多樣性”,比以往任何時(shí)候都趨于揭示這樣的“總和”。

因此,李國杰院士認(rèn)為[6],數(shù)據(jù)的開放共享,提供了多種來源的數(shù)據(jù)融合機(jī)會(huì),它不是錦上添花的事,而是決定大數(shù)據(jù)成敗的必要前提。

從上分析可見,雖然大數(shù)據(jù)有很多特征(甚至有人整出個(gè)11個(gè)V來),但大數(shù)據(jù)的多樣性(Variety),無疑它是區(qū)分以往小數(shù)據(jù)的最重要特征。

關(guān)鍵字:馬陵之戰(zhàn)數(shù)據(jù)比例數(shù)據(jù)融合

本文摘自:數(shù)盟

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 天津市| 宜宾市| 江门市| 红原县| 深圳市| 公主岭市| 教育| 高邑县| 阿拉善盟| 诸暨市| 北安市| 徐州市| 太湖县| 潢川县| 乾安县| 建德市| 灵石县| 称多县| 安阳市| 固安县| 荆州市| 鹤庆县| 岢岚县| 黄山市| 平邑县| 陆河县| 阿合奇县| 东丰县| 滨海县| 武川县| 融水| 新宾| 乐至县| 微博| 苍溪县| 枞阳县| 德保县| 娱乐| 桐乡市| 玉林市| 资阳市|