美國(guó)著名科技?xì)v史學(xué)家梅爾文 克蘭茲伯格(Melvin Kranzberg),曾提出過(guò)大名鼎鼎的科技六定律,其中第三條定律是這樣的[1]:“技術(shù)是總是配“套”而來(lái)的,但這個(gè)“套”有大有小(Technology comes in packages, big and small)”。
這個(gè)定律用在當(dāng)下,是非常應(yīng)景的。因?yàn)椋覀冋饺胍粋€(gè)“大數(shù)據(jù)(big data)”時(shí)代,但對(duì)于以往的“小數(shù)據(jù)(small data)”,我們能做到“事了拂衣去,深藏身與名”嗎?答案顯然不是。目前,大數(shù)據(jù)的前途似乎“星光燦爛”,但小數(shù)據(jù)的價(jià)值依然“風(fēng)采無(wú)限”。克蘭茲伯格的第三定律是告訴我們,新技術(shù)和老技術(shù)的自我革新演變,是交織在一起的。大數(shù)據(jù)和小數(shù)據(jù),他們“配套而來(lái)”,共同勾畫(huà)數(shù)據(jù)技術(shù)(Data Technology,DT)時(shí)代的未來(lái)。
對(duì)大數(shù)據(jù)的“溢美之詞”,已被舍恩伯格教授、涂子沛先生等先行者及其追隨者夸得泛濫成災(zāi)。但正如您所知,任何事情都有兩面性。在眾人都贊大數(shù)據(jù)很好的時(shí)候,我們也需說(shuō)道說(shuō)道大數(shù)據(jù)可能面臨的陷阱,只是為了讓大數(shù)據(jù)能走得更穩(wěn)。在大數(shù)據(jù)的光暈下,當(dāng)漸行漸遠(yuǎn)漸無(wú)小數(shù)據(jù)時(shí),我們也聊聊小數(shù)據(jù)之美,為的是“大小并行,不可偏廢”。大有大的好,小有小的妙,如同一桌菜,哪道才是你的愛(ài)?思量三番再下筷。
下文部分就是供讀者“思量”的材料,主要分為4個(gè)部分:(1)哪個(gè)V才是大數(shù)據(jù)最重要的特征?在這一部分里,我們聊聊大數(shù)據(jù)的4V特征中,哪個(gè)V才是大數(shù)據(jù)最貼切的特征,這是整個(gè)文章的行文基礎(chǔ)。(2)大數(shù)據(jù)的力量與陷阱。在這一部分,我們聊聊大數(shù)據(jù)整體的力量之美及可能面臨的3個(gè)陷阱。(3)今日王謝堂前燕,暫未飛入百姓家,在這一部分,我們要說(shuō)明,大數(shù)據(jù)雖然很火,但我們用數(shù)據(jù)發(fā)聲,用事實(shí)說(shuō)話,大數(shù)據(jù)真的沒(méi)有那么普及,小數(shù)據(jù)目前還是主流。(4)你若安好,便是晴天。在這一部分,我們說(shuō)說(shuō)的小數(shù)據(jù)之美,如果用“n=all”來(lái)代表大數(shù)據(jù),那么就可以用“n=me”來(lái)說(shuō)明小數(shù)據(jù)(這里n表示數(shù)據(jù)大小),我們將會(huì)看到,小數(shù)據(jù)更是關(guān)系到我們的切身利益。
1.哪個(gè)V才是大數(shù)據(jù)最重要的特征?
在談及大數(shù)據(jù)時(shí),人們通常用4V來(lái)描述其特征,即4個(gè)以V為首字母的英文:Volume(大量)、Variety(多樣)、Velocity(速快)及Value(價(jià)值)。如果 “閑來(lái)無(wú)事”,我們非要對(duì)這4個(gè)V在“兵器譜”上排排名,哪個(gè)才是大數(shù)據(jù)的貼切的特征呢?下面我們簡(jiǎn)要地說(shuō)道說(shuō)道,力圖說(shuō)出點(diǎn)新意,分析的結(jié)果或許會(huì)出乎您的意料之外。
1.1 “大”有不同——Volume(大量)
首先我們來(lái)說(shuō)說(shuō)大數(shù)據(jù)的第一個(gè)V——Volume(大量)。雖然數(shù)據(jù)規(guī)模巨大且持續(xù)保持高速增長(zhǎng),通常作為大數(shù)據(jù)的第一個(gè)特征。但事實(shí)上,早在20年前,在當(dāng)時(shí)的IT環(huán)境下,天文、氣象、高能物理、基因工程等領(lǐng)域的科研數(shù)據(jù)量,已是這些領(lǐng)域無(wú)法承受的“體積”之痛,當(dāng)時(shí)實(shí)時(shí)計(jì)算的難度不比現(xiàn)在小,因?yàn)槟菚r(shí)的存儲(chǔ)計(jì)算能力差,亦沒(méi)有成熟的云計(jì)算架構(gòu)和充分的計(jì)算資源。
況且,“大”本身就是一個(gè)相對(duì)的概念,數(shù)據(jù)的大與小,通常都打著很強(qiáng)的時(shí)代烙印。為了說(shuō)明這個(gè)觀點(diǎn),讓我們先回顧一下比爾 蓋茨的經(jīng)典“錯(cuò)誤”預(yù)測(cè)。
圖1 比爾 蓋茨于1981年對(duì)內(nèi)存大小的預(yù)測(cè)
早在1981年,作為當(dāng)時(shí)的IT精英,比爾 蓋茨曾預(yù)測(cè)說(shuō),“640KB的內(nèi)存對(duì)每個(gè)人都應(yīng)該足夠了(640KB ought to be enough for anybody)”。但30多年后的今天,很多人都會(huì)笑話蓋茨,這么聰明的人,怎么會(huì)預(yù)測(cè)地如此不靠譜,現(xiàn)在隨便一個(gè)智能手機(jī)(或筆記本電腦)的內(nèi)存的大小都是4GB、8GB的。
但是,需要注意的事實(shí)是,在1981年,當(dāng)時(shí)的個(gè)人計(jì)算機(jī)(PC)是基于英特爾CPU 8088芯片的,這種CPU是基于8/16位(bit)混合構(gòu)架的處理器,因此,640KB已經(jīng)是這類(lèi)CPU所能支持的尋址空間的理論極限(64KB)的10倍[2],換句話說(shuō),640K在當(dāng)時(shí)是非常非常地龐大了!再回到現(xiàn)在,當(dāng)前PC機(jī)的CPU基本都是64bit的,其理論支持的尋址空間是2^64,而現(xiàn)在的4G內(nèi)存,僅僅是理論極限的(2^32)/(2^64)= 1/(2^32)而已!。
在這里,講這個(gè)小故事的原因在于,衡量數(shù)據(jù)大小,不能脫離時(shí)代背景,不能脫離行業(yè)特征。此外,大數(shù)據(jù)布道者舍恩伯格教授在其著作《大數(shù)據(jù)時(shí)代》中指出[3],大數(shù)據(jù)在某種程度上,可理解為“全數(shù)據(jù)(即n=all)”。有時(shí),一個(gè)所謂的“全”數(shù)據(jù)庫(kù),并不需要有以TB/PB計(jì)的數(shù)據(jù)。在有些案例中,某個(gè)“全”數(shù)據(jù)庫(kù)大小,可能還不如一張普通的僅有幾個(gè)兆字節(jié)(MB)數(shù)碼照片大,但相對(duì)于以前的“部分”數(shù)據(jù),這個(gè)只有幾個(gè)兆字節(jié)(MB)大小的“全”數(shù)據(jù),就是大數(shù)據(jù)。故此,大數(shù)據(jù)之“大”,取義為相對(duì)意義,而非絕對(duì)意義。
這樣看來(lái),互聯(lián)網(wǎng)巨頭的PB級(jí)數(shù)據(jù),可算是大數(shù)據(jù),幾個(gè)MB的全數(shù)據(jù)也可算是大數(shù)據(jù),如此一來(lái), 大數(shù)據(jù)之“大”——“大”有不同,可大可小,如此不“靠譜”,反而不能算作大數(shù)據(jù)最貼切的特征。
1.2 數(shù)據(jù)共征——“Velocity(快速)”與“Value(價(jià)值)”
英特爾中國(guó)研究院院長(zhǎng)吳甘沙先生曾指出,大數(shù)據(jù)的特征“Velocity(快速)”,猶如“天下武功,唯快不破”一樣,要講究個(gè)“快”字。為什么要“快”?因?yàn)闀r(shí)間就是金錢(qián)。如果說(shuō)價(jià)值是分子,那么時(shí)間就是分母,分母越小,單位價(jià)值就越大。面臨同樣大的數(shù)據(jù)“礦山”,“挖礦”效率是競(jìng)爭(zhēng)優(yōu)勢(shì)。
不過(guò),青年學(xué)者周濤教授卻認(rèn)為[4],1秒鐘算出來(lái)根本就不是大數(shù)據(jù)的特征,因?yàn)?ldquo;算得越快越好”,人類(lèi)自打有計(jì)算這件事情以來(lái),這個(gè)訴求就沒(méi)有變化過(guò),而現(xiàn)在,卻把它作為一個(gè)新時(shí)代的主要特征,完全是無(wú)稽之談。 筆者也更傾向于這個(gè)說(shuō)法,把一個(gè)計(jì)算上的“通識(shí)”要求,算作一個(gè)新生事物的特征,確實(shí)欠妥。
類(lèi)似不妥的還有大數(shù)據(jù)的另外一個(gè)特征——Value(價(jià)值)。事實(shí)上,“數(shù)據(jù)即價(jià)值”的價(jià)值觀古來(lái)有之。例如,在《孫子兵法 始計(jì)篇》中,早就有這樣的論斷“多算勝,少算不勝,而況于無(wú)算乎?”此處 “算”,乃算籌也,也就是計(jì)數(shù)用的籌碼,它講得就是,如何利用數(shù)字,來(lái)估計(jì)各種因素,從而做出決策。
在馬陵之戰(zhàn)中,孫臏通過(guò)編造“齊軍入魏地為十萬(wàn)灶,明日為五萬(wàn)灶,又明日為三萬(wàn)灶(史記·孫子吳起列傳)”的數(shù)據(jù),利用龐涓的數(shù)據(jù)分析習(xí)慣,反其道而用之,對(duì)龐涓實(shí)施誘殺。
話說(shuō)還有一個(gè)關(guān)于林彪將軍的段子(真假不可考),在遼沈戰(zhàn)役中,林大將軍通過(guò)分析繳獲的短槍與長(zhǎng)槍比例、繳獲和擊毀小車(chē)與大車(chē)比例,以及俘虜和擊斃的軍官與士兵的比例“異常”,因此得出結(jié)論,敵人的指揮所就在附近!果不其然,通過(guò)追擊從胡家窩棚逃走的那部分?jǐn)橙耍钭絿?guó)民黨主帥新六軍軍長(zhǎng)廖耀湘。
在戰(zhàn)場(chǎng)上,數(shù)據(jù)的價(jià)值——就是輔助決策來(lái)獲勝。還有一點(diǎn)值得注意的是,在上面的案例中,戰(zhàn)場(chǎng)上的數(shù)據(jù),神機(jī)妙算的軍師們,都能“掐指一算”——這顯然屬于十足的小數(shù)據(jù)!但網(wǎng)上卻流傳有很多諸如“林彪也玩大數(shù)據(jù)”、“跟著林彪學(xué)習(xí)大數(shù)據(jù)”等類(lèi)似的文章,這就純屬扯淡了。如果凡是有點(diǎn)數(shù)據(jù)分析思維的案例,都?xì)w屬于大數(shù)據(jù)的話,那大數(shù)據(jù)的案例,古往今來(lái),可真是數(shù)不勝數(shù)了。
因此,Value(價(jià)值)實(shí)在不能算是大數(shù)據(jù)專(zhuān)享的特征,“小數(shù)據(jù)”也是有價(jià)值的。在下文第4節(jié)的分析中,我們可以看到,小數(shù)據(jù)對(duì)個(gè)人而言,“價(jià)值”更是不容小覷。這樣一來(lái),如果大、小數(shù)據(jù)都有價(jià)值,何以“價(jià)值”成為大數(shù)據(jù)的特征呢? 事實(shí)上,睿智的IBM,在對(duì)大數(shù)據(jù)的特征概括中,壓根就沒(méi)有“Value”這個(gè)V(如圖2所示)。
圖2 IBM公司給出的大數(shù)據(jù)3V特征
我們知道,所謂“特征”者,乃事物異于它物之特點(diǎn)”。打個(gè)比方,如果我們說(shuō)“有鼻子有眼是男人的特征”,您可能就會(huì)覺(jué)得不妥:“難道女人就沒(méi)有鼻子沒(méi)有眼睛嗎?”是的,“有鼻子有眼”是男人和女人的“共征”,而非“特征”。同樣的道理,Velocity 和Value這兩個(gè)V字頭詞匯,是大、小數(shù)據(jù)都能有的“共征”, 實(shí)在也不算不上是大數(shù)據(jù)最貼切的特征。
1.3五彩繽“紛”——Variety(多樣)
通常認(rèn)為,大數(shù)據(jù)的多樣性(Variety),是指數(shù)據(jù)種類(lèi)多樣。其最簡(jiǎn)單的種類(lèi)劃分,莫過(guò)于分為兩大類(lèi):結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)在“非結(jié)構(gòu)化數(shù)據(jù)”占到整個(gè)數(shù)據(jù)比例的70%~80%。早期的非結(jié)構(gòu)化數(shù)據(jù),在企業(yè)數(shù)據(jù)的語(yǔ)境里,可以包括諸如電子郵件、文檔、健康、醫(yī)療記錄等非結(jié)構(gòu)化文本。隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)(Internet of things,IoT)的快速發(fā)展,現(xiàn)在的非結(jié)構(gòu)化數(shù)據(jù)又?jǐn)U展到諸如網(wǎng)頁(yè)、社交媒體、音頻、視頻、圖片、感知數(shù)據(jù)等,這詮釋了數(shù)據(jù)的形式多樣性。
但倘若深究下去,就會(huì)發(fā)現(xiàn),“非結(jié)構(gòu)化”未必是個(gè)成立的概念。在信息中,“結(jié)構(gòu)化”是永存的。而所謂的“非結(jié)構(gòu)化”,不過(guò)是某些結(jié)構(gòu)尚未被人清晰的描述出來(lái)而已。IT咨詢(xún)公司Alta Plana的高級(jí)數(shù)據(jù)分析師Seth Grimes曾在IT領(lǐng)域著名刊物《信息周刊》(Information Week)撰文指出:不存在所謂的非結(jié)構(gòu)化,現(xiàn)在所說(shuō)的“非結(jié)構(gòu)化”,應(yīng)該是非模型化(unmodeled),結(jié)構(gòu)本在,只是人們處理數(shù)據(jù)的功力未到,未建模而已(Most unstructured data is merely unmodeled)[5](如圖3所示)。
圖3 Seth Grimes:非結(jié)構(gòu)化乎,不!應(yīng)是非建模
大數(shù)據(jù)的多樣性(Variety),還體現(xiàn)在數(shù)據(jù)質(zhì)量的參差不齊上。換句話說(shuō),這個(gè)語(yǔ)境下的多樣性就是混雜性(Messy),即數(shù)據(jù)里混有雜質(zhì)(或稱(chēng)噪音)。大數(shù)據(jù)的混雜性,基本上是不可避免的,既可能是數(shù)據(jù)產(chǎn)生者在產(chǎn)生數(shù)據(jù)過(guò)程出現(xiàn)了問(wèn)題,也可能是采集或存儲(chǔ)過(guò)程存在問(wèn)題。如果這些數(shù)據(jù)噪音是偶然的,那么在大數(shù)據(jù)中,它一定會(huì)被更多的正確數(shù)據(jù)淹沒(méi)掉,這樣就使得大數(shù)據(jù)具備一定的容錯(cuò)性;如果噪音存在規(guī)律性,那么在具備足夠多的數(shù)據(jù)后,就有機(jī)會(huì)發(fā)現(xiàn)這個(gè)規(guī)律,從而可有規(guī)律的“清洗數(shù)據(jù)”,把噪音過(guò)濾掉。吳甘沙先生認(rèn)為[15],多元抑制的數(shù)據(jù),能夠過(guò)濾噪聲、去偽存真,即為辯訛。更多有關(guān)混雜性的精彩描述,讀者還可批判性地參閱舍恩伯格教授的大著《大數(shù)據(jù)時(shí)代》[3]。
事實(shí)上,大數(shù)據(jù)的多樣性(Variety),最重要的一面,還是表現(xiàn)在數(shù)據(jù)的來(lái)源多和用途多上。每一種數(shù)據(jù)來(lái)源,都有其一定的片面性和局限性,只有融合、集成多方面的數(shù)據(jù),才能反映事物的全貌。事物的本質(zhì)和規(guī)律隱藏在各種原始數(shù)據(jù)的相互關(guān)聯(lián)之中。對(duì)同一個(gè)問(wèn)題,不同的數(shù)據(jù)能提供互補(bǔ)信息,可對(duì)問(wèn)題有更為深入的理解。因此在大數(shù)據(jù)分析中,匯集盡量多種來(lái)源的數(shù)據(jù)是關(guān)鍵。中國(guó)工程院李國(guó)杰院士認(rèn)為[6],這非常類(lèi)似于錢(qián)學(xué)森老先生提出的“大成智慧學(xué)”,“必集大成,才能得智慧”。
著名歷史學(xué)家許倬云先生,站在歷史的高度,也給出了自己的觀點(diǎn),他說(shuō)“大數(shù)據(jù)”之所以能稱(chēng)之為“大數(shù)據(jù)”,就在于,其將各種分散的數(shù)據(jù),彼此聯(lián)系,由點(diǎn)而線,由線而面,由面而層次,以瞻見(jiàn)更完整的覆蓋面,也更清楚地理解事物的本質(zhì)和未來(lái)取向。
英國(guó)數(shù)學(xué)家及人類(lèi)學(xué)家托馬斯·克倫普(Thomas Crump)在其著作《數(shù)字人類(lèi)學(xué)》(The Anthropology of Numbers)指出[7],數(shù)據(jù)的本質(zhì)是人,分析數(shù)據(jù)就是在分析人類(lèi)族群自身,數(shù)據(jù)背后一定要還原為人。東南大學(xué)知名哲學(xué)教授呂乃基先生認(rèn)為[8],雖然每個(gè)數(shù)據(jù)來(lái)源因其單項(xiàng)而顯得模糊,然而由“無(wú)限的模糊”所帶來(lái)的聚焦成像,會(huì)比“有限的精確”更準(zhǔn)確。“人是社會(huì)關(guān)系的總和(馬克思語(yǔ))”。大數(shù)據(jù)利用自己的“多樣性”,比以往任何時(shí)候都趨于揭示這樣的“總和”。
因此,李國(guó)杰院士認(rèn)為[6],數(shù)據(jù)的開(kāi)放共享,提供了多種來(lái)源的數(shù)據(jù)融合機(jī)會(huì),它不是錦上添花的事,而是決定大數(shù)據(jù)成敗的必要前提。
從上分析可見(jiàn),雖然大數(shù)據(jù)有很多特征(甚至有人整出11個(gè)V來(lái)),但大數(shù)據(jù)的多樣性(Variety),無(wú)疑它是區(qū)分以往小數(shù)據(jù)的最重要特征。
2. 大數(shù)據(jù)的力量與陷阱
大數(shù)據(jù)的多樣性,給大數(shù)據(jù)分析帶來(lái)了龐大的力量,但這個(gè)多樣性也帶來(lái)了大數(shù)據(jù)的陷阱,下面我們就聊聊這個(gè)話題。
2.1 大數(shù)據(jù)的力量
很多小概率、大影響的事件(即黑天鵝事件),在單一的小數(shù)據(jù)環(huán)境下,很可能難以發(fā)現(xiàn)。但是由“八方來(lái)客”匯集而來(lái)的大數(shù)據(jù),卻能有機(jī)會(huì)提供更為深刻的洞察(insight)。例如,癌癥屬于一類(lèi)長(zhǎng)尾病癥,經(jīng)過(guò)多少年努力,癌癥治愈率僅提升了不到8%。其中一個(gè)重要原因是,單個(gè)癌癥的診療機(jī)構(gòu)的癌癥基因組樣本都相對(duì)有限。“小樣本”得出的研究結(jié)論,得出有關(guān)“癌癥診斷”的結(jié)論,極有可能是“盲人摸象化”的[9]。
于是,英特爾公司提出的“數(shù)據(jù)咖啡館”概念,吳甘沙先生做了一個(gè)形象的類(lèi)比,他說(shuō)咖啡館的好處在于“Let ideas have sex”,而大數(shù)據(jù)產(chǎn)生價(jià)值、爆發(fā)力量的關(guān)鍵是“Let data have sex”。取意如此,數(shù)據(jù)咖啡館”的核心理念在于,把不同醫(yī)療機(jī)構(gòu)的癌癥診療數(shù)據(jù)匯聚到一起,形成大數(shù)據(jù)集合,但不同機(jī)構(gòu)間的數(shù)據(jù),“相逢但不相識(shí)”。讓多源頭的“小數(shù)據(jù)”匯集起來(lái),可實(shí)現(xiàn)數(shù)據(jù)之間“1+1>2”的價(jià)值。對(duì)多數(shù)據(jù)融合用“have sex”這個(gè)比喻,是非常有意思的,因?yàn)樘热裟阏嫦胍_(dá)到“1+1> 2”的效果,就不能帶著“套子”擋著,就要打破“數(shù)據(jù)流的割據(jù)”。難怪李院士一直強(qiáng)調(diào),數(shù)據(jù)的流通性,是決定大數(shù)據(jù)成敗的前提,還是真的(純屬調(diào)侃,不可較真)!
類(lèi)似的,2014年美國(guó)總統(tǒng)辦公室發(fā)布了題為“大數(shù)據(jù):抓住機(jī)遇,留住價(jià)值(Big Data:Seizing Opportunities, Preserving Values)”的報(bào)告[10],文中列舉了一個(gè)案例:
Broad 研究院(這是一個(gè)由麻省理工學(xué)院和哈佛大學(xué)聯(lián)合創(chuàng)辦的世界著名的基因研究機(jī)構(gòu))的研究人員發(fā)現(xiàn),海量的基因數(shù)據(jù),在識(shí)別遺傳變異對(duì)疾病的意義中,有著及其重要的作用。在這個(gè)研究中,當(dāng)樣本數(shù)量是 3,500 時(shí),與精神分裂癥有關(guān)的遺傳變異,根本無(wú)法檢測(cè)出來(lái);當(dāng)使用 10,000 個(gè)樣本時(shí),也只能有細(xì)微的識(shí)別;但是當(dāng)樣本達(dá)到 35,000 時(shí),統(tǒng)計(jì)學(xué)上的統(tǒng)計(jì)顯著性(statistically significant)便突然顯示出來(lái)。正如一個(gè)研究人員所觀察到的那樣,“跨越拐點(diǎn),一切皆變!(There is aninflection point at which everything changes)”[11](如圖4所示)。從這個(gè)案例中,大數(shù)據(jù)把哲學(xué)中的“量變引發(fā)質(zhì)變”演繹得淋漓盡致。
圖4 精神分裂癥有關(guān)的遺傳變異發(fā)現(xiàn)——大數(shù)據(jù)的“匯集”的力量
2.2 大數(shù)據(jù)的陷阱
大數(shù)據(jù)的多樣性,帶人們來(lái)了“兼聽(tīng)則明”的智慧。然而,正如英諺所云:“一個(gè)硬幣有兩面(Every coin has two sides)”, 這個(gè)多樣性也會(huì)帶來(lái)一些不宜察覺(jué)的“陷阱”。用“成也蕭何,敗也蕭何”來(lái)描述大數(shù)據(jù)的兩難,再恰當(dāng)不過(guò)了。
2.2.1 DIKW金字塔體系
1989年,管理學(xué)家羅素·艾可夫(Russell .L. Ackoff)撰寫(xiě)了《從數(shù)據(jù)到智慧》(From Data to Wisdom),系統(tǒng)地構(gòu)建了DIKW體系[12],即從低到高依次為數(shù)據(jù)(Data)、信息(Information)、知識(shí)(Knowledge)及智慧(Wisdom)。美國(guó)學(xué)者澤萊尼(Zeleny)提出了4個(gè)Know(知道)比喻[12],比較形象地區(qū)分了DIKW體系中的元素,如圖5所示。
圖5 澤萊尼對(duì)DIKW體系中的4個(gè)Know比擬
澤萊尼對(duì)DIKW體系的注解,讓人感觸最深的可能在于,數(shù)據(jù)如果不實(shí)施進(jìn)一步地處理,即使收集數(shù)據(jù)的容量再“大”,也毫無(wú)價(jià)值,因?yàn)閮H僅就數(shù)據(jù)本身,它們是“一無(wú)所知(Know-Nothing)”的。數(shù)據(jù)最大的價(jià)值,在于形成信息,變成知識(shí),乃至升華為智慧。
舍恩伯格教授在其大作《大數(shù)據(jù)時(shí)代》有個(gè)核心觀點(diǎn)是:“要相關(guān),不要因果”,即知道“是什么”就夠了,沒(méi)必要知道“為什么”。但從DIKW體系可知,如果放棄“為什么”的追尋,事實(shí)上,就放棄了對(duì)金字塔的最頂端——智慧(Wisdom)的追求——而智慧正是人類(lèi)和機(jī)器最本質(zhì)的區(qū)別。
對(duì)此,青年學(xué)者周濤教授總結(jié)得非常精彩:“放棄對(duì)因果性的追求,就是放棄了人類(lèi)凌駕于計(jì)算機(jī)之上的智力優(yōu)勢(shì),是人類(lèi)自身的放縱和墮落。如果未來(lái)某一天機(jī)器和計(jì)算完全接管了這個(gè)世界,那么這種放棄就是末日之始”。對(duì)大數(shù)據(jù)的因果性和相關(guān)性的探討,我們已經(jīng)在《來(lái)自大數(shù)據(jù)的反思:需要你讀懂的10個(gè)小故事》一文中[14],已有涉及,在此不再贅言,下面我們想探討的是,事實(shí)上,對(duì)因果關(guān)系的追尋,是人類(lèi)慣有的思維,在這個(gè)慣性思維推動(dòng)下,很容易誤把“相關(guān)”當(dāng)“因果”——這是我們需要警惕的大數(shù)據(jù)陷阱。
2.2.2 誤把“相關(guān)”當(dāng)“因果”
所謂“相關(guān)性”是指兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性。兩個(gè)變量A和B有相關(guān)性,只反映A和B在取值時(shí)相互有影響,但并不能說(shuō)明因?yàn)椋蠥就一定有B,或者反過(guò)來(lái)因?yàn)橛蠦就一定有A。
在上面的論述中,似乎我們一直在說(shuō)“相關(guān)性”的不足。而事實(shí)上,需要說(shuō)明的是,相關(guān)性在很多場(chǎng)合是極其有用的。例如,在大批量的小決策上,相關(guān)性就是有用的,亞馬遜的電子商務(wù)個(gè)性化推薦,就是利用相關(guān)性,給無(wú)數(shù)顧客推薦相關(guān)的或類(lèi)似商品,這樣顧客找起商品方便多了,亞馬遜也落得個(gè)賺得缽滿盆滿。
然而,對(duì)于小批量的大決策,對(duì)因果關(guān)系的追求,依然是非常重要的。吳甘沙先生用“中西藥”藥方做類(lèi)比,給出了一個(gè)很精彩的例子,用來(lái)說(shuō)明相關(guān)性和因果性的關(guān)系[15]。對(duì)于中藥處方而言,多是“神農(nóng)嘗百草”式的經(jīng)驗(yàn)處方,目前僅僅到達(dá)知道“相關(guān)性”這一步,但它沒(méi)有可解釋性,無(wú)法得出是那些樹(shù)皮和蟲(chóng)殼的因,為什么就是導(dǎo)致某些病能治愈的果,換句話說(shuō),中藥僅僅到了“知其然”階段(追求“是什么”),如果我們的國(guó)粹止步于“知其所以然”(追求“為什么”),那么中醫(yī)想要走出中國(guó),面向世界,是非常困難的(注:筆者曾是中醫(yī)的受益者,請(qǐng)不要誤判是在黑中醫(yī))。
而西藥則不同,在發(fā)現(xiàn)相關(guān)性后,并沒(méi)有止步,而是進(jìn)一步要做隨機(jī)對(duì)照試驗(yàn),把所有可能導(dǎo)致“治愈的果”的干擾因素排除,獲得因果性和可解釋性。在商業(yè)決策上也是類(lèi)似,相關(guān)性只是決策的開(kāi)始,它取代了拍腦袋、依靠直覺(jué)獲得的假設(shè),而后面驗(yàn)證因果性的過(guò)程仍然是重要。
在大數(shù)據(jù)時(shí)代,“相關(guān)性”被很多大數(shù)據(jù)粉絲奉為圭臬。前文也提到,“相關(guān)性”也的確有用,但有時(shí),人們會(huì)不自覺(jué)地把“相關(guān)性”不自覺(jué)地當(dāng)作“因果性”。
加拿大萊橋大學(xué)管理學(xué)院鮑勇劍教授指出[16],在大數(shù)據(jù)時(shí)代,只要有超大樣本和超多變量,我們都可能找到無(wú)厘頭式的相關(guān)性。美國(guó)政府每年公布4.5萬(wàn)類(lèi)經(jīng)濟(jì)數(shù)據(jù)。如果你要找失業(yè)率和利率受什么變量影響,你可以羅列10億個(gè)假設(shè)。只要你反復(fù)嘗試不同的模型,上千次后,你一定可以找到統(tǒng)計(jì)學(xué)意義上成立的相關(guān)性。下面我們講幾個(gè)小故事(段子)來(lái)說(shuō)明這個(gè)觀點(diǎn)。
在小數(shù)據(jù)時(shí)代的1992年,香港人拍了一個(gè)電視連續(xù)劇《大時(shí)代》,其中著名演員鄭少秋飾演丁蟹,丁蟹是一個(gè)資深的股民,股海翻騰,身心疲憊,終無(wú)所得。在1992年的隨后20多年里,只要電視臺(tái)一播放鄭少秋主演的連續(xù)劇,香港恒生指數(shù)都會(huì)有不同程度的下跌,人稱(chēng)“丁蟹效應(yīng)(或稱(chēng)秋官效應(yīng))”,這是有樣本支持的,如圖6所示。每次鄭少秋主演的電視劇播放預(yù)告時(shí),總有香港股民打電話到電視臺(tái),希望不要播放,因?yàn)閾?dān)心虧錢(qián)。
圖6 丁蟹效應(yīng)與香港股市
更無(wú)厘頭的是,這相關(guān)性還扯到中國(guó)運(yùn)動(dòng)員劉翔身上了,下面是個(gè)“余溫尚存”段子,它是這樣描述的:
2008年8月18日 北京奧運(yùn)會(huì),劉翔因傷退賽,當(dāng)天股市大跌5.3%,并且一個(gè)月內(nèi)大跌20%。
2014年9月他宣布結(jié)婚一個(gè)月后,股市就開(kāi)始狂漲,從2300點(diǎn)漲到5178點(diǎn)。
2015年6月26日,劉翔離婚,股市繼續(xù)大跌至8%。股市的漲跌原來(lái)都是因?yàn)閯⑾璋?
因此,網(wǎng)友們強(qiáng)烈要求劉翔盡快宣布再次結(jié)婚。
香港的股民為什么不希望鄭少秋主演的電視劇播放,是因?yàn)榕码娨晞∫徊シ牛墒芯拖碌4箨懙墓擅駷槭裁聪M麆⑾柙俅谓Y(jié)婚,因?yàn)閯⑾栌邢擦耍怨墒芯陀邢擦恕W⒁獾角懊婷枋鲋畜w現(xiàn)出來(lái)的“因果關(guān)系”嗎?
事實(shí)上,《大時(shí)代》和劉翔和股市之間有何因果關(guān)系?不過(guò)是樣本大了,變量多了,統(tǒng)計(jì)上的“相關(guān)性”就會(huì)冒出來(lái)而已。而人們卻“潛移默化”地把觀察到的“相關(guān)”,當(dāng)作事物背后的“因果”。
或許,就有人不太認(rèn)可上述觀點(diǎn),認(rèn)為上面兩個(gè)小故事,都是屬于段子級(jí)別的案例,何以能說(shuō)明問(wèn)題?那我們就舉一個(gè)古而有之的案例來(lái)說(shuō)明這個(gè)觀點(diǎn)。請(qǐng)讀者略看下面的文字:
黃梅時(shí)節(jié)家家雨,青草池塘處處蛙。
潮起潮落勁風(fēng)舞,夏夜夏雨聽(tīng)蛙鳴。
荷沐夏雨嬌滴滴,稻里蛙鳴一片歡。
夏雨涼風(fēng),蟬噪蛙鳴,熱浪來(lái)襲,遠(yuǎn)處云樹(shù)晚蒼蒼。
皇阿瑪,你還記得當(dāng)年蛙鳴湖邊的夏雨荷嗎?
我們知道,文學(xué)雖然高于生活,但亦源于生活。從上面的從古至今的“文人墨客”的詩(shī)情畫(huà)意中,讀者依稀可看出一點(diǎn)點(diǎn)相關(guān)性——人類(lèi)祖先經(jīng)過(guò)長(zhǎng)期觀察發(fā)現(xiàn),蛙鳴與下雨往往是同時(shí)發(fā)生。這樣的長(zhǎng)期觀察樣本,也可稱(chēng)得上是“大數(shù)據(jù)”。于是,在久旱無(wú)雨的季節(jié),不求甚解的古人,就會(huì)把這個(gè)“相關(guān)性”當(dāng)作“因果性”了,他們?cè)噲D通過(guò)學(xué)蛙鳴來(lái)求雨。在多次失靈之后,就會(huì)走向巫術(shù)、獻(xiàn)祭和宗教[8](如圖7所示)。因此,同小數(shù)據(jù)一樣,在大數(shù)據(jù)中,可解釋性(因果關(guān)系)始終是重要的。
圖7 印度人民以蛙求雨的習(xí)俗,源遠(yuǎn)流長(zhǎng),至今留存
博弈論創(chuàng)始人之一、天才計(jì)算機(jī)科學(xué)家諾伊曼(John von Neumann)曾戲言稱(chēng):“如果有四個(gè)變量,我能畫(huà)頭大象,如果再給一個(gè),我讓大象的鼻子豎起來(lái)!”大數(shù)據(jù)的來(lái)源多樣性,變量復(fù)雜性,為誕生 “新穎”的相關(guān)性,創(chuàng)造無(wú)限可能。而本質(zhì)上,人們對(duì)因果關(guān)系的追求,事實(shí)上,已經(jīng)根深蒂固,這種思維慣性難以輕易改變,而在大數(shù)據(jù)時(shí)代,會(huì)面臨著冒出更多的相關(guān)性,“亂花漸欲迷人眼”。大數(shù)據(jù)的擁躉者們說(shuō),“要相關(guān),不要因果”,但事實(shí)上,在很多時(shí)候,特別是人們?cè)趯?duì)未來(lái)無(wú)法把控的時(shí)候,很容易把“相關(guān)”當(dāng)作“因果”!這是大數(shù)據(jù)時(shí)代里一個(gè)很大的陷阱,特別值得注意。
2.2.3 大數(shù)據(jù)的其它陷阱
下面,我們用另外一個(gè)小“故事”來(lái)說(shuō)明大數(shù)據(jù)的第二個(gè)陷阱:
假如你是一位出車(chē)千次無(wú)事故的好司機(jī),年關(guān)將近,酒趣盎然,在朋友家喝了點(diǎn)小酒,這時(shí)估計(jì)警察也該下班過(guò)年了,于是你堅(jiān)持自己開(kāi)車(chē)回家,盤(pán)算著這酒后駕車(chē)出事故的概率也不過(guò)千分之一吧。如果這樣算,你就犯了一個(gè)取樣錯(cuò)誤,因?yàn)榍耙磺Т纬鲕?chē),你沒(méi)喝酒,它們不能和這次“酒后駕車(chē)”混在一起計(jì)算)。
這是大數(shù)據(jù)分析中的第二個(gè)容易跳入的陷阱。大數(shù)據(jù)的多樣性里,包括了數(shù)據(jù)質(zhì)量上的“混雜性”,某些低頻但很重要的弱信號(hào),很容易被當(dāng)作噪音過(guò)濾掉了!從而痛失發(fā)現(xiàn)“黑天鵝”事件的可能性。
再例如,在美國(guó),學(xué)習(xí)飛機(jī)駕駛是件“司空見(jiàn)慣”的事,在幾十萬(wàn)學(xué)習(xí)飛機(jī)駕駛的記錄中,如果美國(guó)有關(guān)當(dāng)局能注意到,有那么幾位學(xué)員只學(xué)習(xí)“飛機(jī)起飛”,而不學(xué)習(xí)“飛機(jī)降落”,那么9/11事件或許就可以避免,世界的格局可能就此發(fā)生根本性的變化(當(dāng)然,這個(gè)事件也為中國(guó)贏得了10年的黃金發(fā)展期,不在本文的討論范圍,就不展開(kāi)說(shuō))。在大數(shù)據(jù)時(shí)代的分析中,很容易放棄對(duì)精確的追求,而允許對(duì)混雜數(shù)據(jù)的接納,但過(guò)多的“混雜放縱”,就會(huì)形成一個(gè)自設(shè)的陷阱。因此,必需“未雨綢繆”,有所提防。
在大數(shù)據(jù)時(shí)代里,第三個(gè)值得注意的陷阱是,大數(shù)據(jù)的擁躉者認(rèn)為,大數(shù)據(jù)可以做到“n=all”(這里n數(shù)據(jù)的大小),因此無(wú)需采樣,這樣做也就不會(huì)再有采樣偏差的問(wèn)題,因?yàn)椴蓸右呀?jīng)包含了所有數(shù)據(jù)。但事實(shí)上,“n=all”很難做到,統(tǒng)計(jì)學(xué)家們花了200多年,總結(jié)出認(rèn)知數(shù)據(jù)過(guò)程中的種種陷阱(如統(tǒng)計(jì)偏差等),這些陷阱不會(huì)隨著數(shù)據(jù)量的增大而自動(dòng)填平。
3.今日王謝堂前燕,暫未飛入百姓家——大數(shù)據(jù)沒(méi)那么普及!
目前,雖然大數(shù)據(jù)被炒得火熱,甚至連股票交易大廳的大爺大媽都可以聊上幾句“大數(shù)據(jù)”概念股,但是大數(shù)據(jù)真的有那么普及嗎?
事實(shí)上,倘若想要充分利用大數(shù)據(jù),至少要具備3個(gè)條件:(1)擁有大數(shù)據(jù)本身;(2)具備大數(shù)據(jù)思維;(3)配備大數(shù)據(jù)技術(shù)。這三個(gè)高門(mén)檻,事實(shí)上,已經(jīng)把很多公司企業(yè)拒之門(mén)外,套用劉禹錫那句詩(shī):今日王謝堂前燕,不入尋常百姓家——大數(shù)據(jù)依然還是那么高大上,遠(yuǎn)遠(yuǎn)沒(méi)有那么普及!
圖8所示的是,著名IT咨詢(xún)公司高德納(Gartner)于2014年公布的技術(shù)成熟度曲線(hype cycle)。國(guó)內(nèi)將“hype cycle”翻譯成“成熟度曲線”,實(shí)在是太過(guò)文雅了,直譯為“炒作周期”也毫不為過(guò)。從圖8可以看出,大數(shù)據(jù)已經(jīng)過(guò)了炒作的高峰期,目前處于泡沫化的底谷期 (Trough of Disillusionment)。
在歷經(jīng)前面的科技誕生促動(dòng)期 (Technology Trigger)和過(guò)高期望峰值期(Peak of Inflated Expectations)這兩個(gè)階段,泡沫化的底谷期存活下來(lái)的科技(如大數(shù)據(jù)),需要經(jīng)過(guò)多方歷練,技術(shù)的助推者,要么咬牙堅(jiān)持創(chuàng)新,要么無(wú)奈淘汰出局,能成功存活下來(lái)的技術(shù)及經(jīng)營(yíng)模式,將會(huì)更加務(wù)實(shí)地茁壯成長(zhǎng)。
李國(guó)杰院士在接受《湖北日?qǐng)?bào)》的采訪時(shí),也表達(dá)了類(lèi)似的觀點(diǎn),“大數(shù)據(jù)剛剛過(guò)了炒作的高峰期”[17]。冷靜下來(lái)的大數(shù)據(jù),或許可以走得更遠(yuǎn)。
圖8 高德納技術(shù)成熟度曲線
李國(guó)杰院士還表示,大數(shù)據(jù)與其他信息技術(shù)一樣,在一段時(shí)間內(nèi)遵循指數(shù)發(fā)展規(guī)律。指數(shù)規(guī)律發(fā)展的特點(diǎn)是,在一段時(shí)期衡量?jī)?nèi)(至少30年),前期發(fā)展慢,經(jīng)過(guò)相當(dāng)長(zhǎng)時(shí)間(可能需要20年以上)的積累,會(huì)出現(xiàn)一個(gè)拐點(diǎn),過(guò)了拐點(diǎn)以后,就會(huì)出現(xiàn)爆炸式的增長(zhǎng)。但任何技術(shù)都不會(huì)永遠(yuǎn)保持“指數(shù)性”增長(zhǎng),最后的結(jié)局,要么進(jìn)入良性發(fā)展的穩(wěn)定狀態(tài),要么走向消亡。
大數(shù)據(jù)的布道者們,張口閉口言稱(chēng)大數(shù)據(jù)進(jìn)入PB時(shí)代了。例如,《連線》雜志的前主編克里斯·安德森早在2008年說(shuō):“在PB時(shí)代,數(shù)量龐大的數(shù)據(jù)會(huì)使人們不再需要理論,甚至不再需要科學(xué)的方法。”但是這個(gè)吹捧也是非常不靠譜的,亦需要潑冷水還有大數(shù)據(jù)。
在大數(shù)據(jù)時(shí)代,我們要習(xí)慣讓數(shù)據(jù)發(fā)聲。下面的統(tǒng)計(jì)數(shù)據(jù)來(lái)自大名鼎鼎的學(xué)術(shù)期刊《科學(xué)》(Science)。2011年,《科學(xué)》調(diào)查發(fā)現(xiàn)[18],在“你科研過(guò)程中使用的(或產(chǎn)生的)最大數(shù)據(jù)集是多少?”的問(wèn)卷調(diào)查中(如圖9所示),48.3%的受訪者認(rèn)為他們?nèi)粘L幚淼臄?shù)據(jù)小于1GB,只有7.6%的受訪者說(shuō)他們?nèi)粘S玫臄?shù)據(jù)大于1TB(1TB=1024GB,1PB=1024TB),也就是說(shuō),調(diào)查數(shù)據(jù)顯示,92.4%用戶所用的數(shù)據(jù)小于1TB,一個(gè)稍微大點(diǎn)的普通硬盤(pán)就能裝載得下,這讓那些動(dòng)輒言稱(chēng)PB級(jí)別的大數(shù)據(jù)的布道者們情何以堪啊?而大數(shù)據(jù)重度鼓吹手IDC,目前正在為業(yè)界巨擘搖旗吶喊ZB時(shí)代(1ZB=1024PB),我們一定要冷眼看世界,慢慢等著瞧吧!
圖9 在你的科研中,你使用的(或產(chǎn)生)最大數(shù)據(jù)集是多大?
而在“你在哪里存儲(chǔ)實(shí)驗(yàn)室產(chǎn)生的數(shù)據(jù)或科研用的數(shù)據(jù)?”問(wèn)卷調(diào)查中,50.2%的受訪者回答是在自己的實(shí)驗(yàn)室電腦里存儲(chǔ),38.5%受訪者回答是在大學(xué)的服務(wù)器上存儲(chǔ)。由此可見(jiàn),大部分的數(shù)據(jù)依然處于數(shù)據(jù)孤島狀態(tài),在數(shù)據(jù)流通性的道路是,依然“路漫漫其修遠(yuǎn)兮”。而數(shù)據(jù)的流通性和共享性,如前文所述,是大數(shù)據(jù)成敗的前提。
圖10 你主要在哪里存儲(chǔ)你實(shí)驗(yàn)產(chǎn)生的或科研數(shù)據(jù)?
或許也有讀者不以為然,說(shuō)我就是屬于那部分小于7.6%的人(即使用或產(chǎn)生的數(shù)據(jù)大于1TB)。“我小眾,我自豪”,此類(lèi)信心滿滿的人,大多來(lái)自主流的互聯(lián)網(wǎng)公司,如Google、Yahoo、微軟、Facebook等,而在國(guó)內(nèi)的自然非BAT莫屬了。事實(shí)上,即使來(lái)自這類(lèi)大公司的日常業(yè)務(wù),其數(shù)據(jù)集也不是那么大的“觸目驚心”。
微軟研究院資深研究員Antony Rowstron等人撰文指出[19],根據(jù)微軟和Yahoo的統(tǒng)計(jì),所有Hadoop的作業(yè)放一起,取個(gè)中間值,其輸入數(shù)據(jù)集的大小也不過(guò)是14GB。即使是在大數(shù)據(jù)大戶Facebook,其90%的作業(yè)輸入數(shù)據(jù)集,也是小于100GB的(clusters (at Microsoft and Yahoo) have median job input sizes under 14 GB, and 90% of jobs on a Facebook cluster have input sizes under 100 GB)。那些動(dòng)輒拿某個(gè)互聯(lián)網(wǎng)巨頭的數(shù)據(jù)體積總和,來(lái)“忽悠”大家的大數(shù)據(jù)布道者們,更應(yīng)該借給受眾們“一雙慧眼”,讓他們“把這紛擾看得清清楚楚明明白白真真切切”。
當(dāng)然,Antony Rowstron的這篇論文“意不在此”,文中的主要訴求是,既然我們?nèi)粘L幚淼臄?shù)據(jù)沒(méi)有那么大到“不成體統(tǒng)”,就沒(méi)有必要把某臺(tái)機(jī)器的性能指標(biāo)一味地縱向擴(kuò)展(scale up),比如把內(nèi)存從8G升級(jí)為16GB,32GB,64GB,甚至更高,而是應(yīng)該選擇更加“經(jīng)濟(jì)實(shí)惠”的橫向擴(kuò)展(Scale out)策略,比如將若干個(gè)8GB低配置的機(jī)器連接在一起,組成一個(gè)廉價(jià)的集群(cluster),然后利用Hadoop將集群用起來(lái),所以這篇論文的標(biāo)題是“沒(méi)有人會(huì)因在集群上使用Hadoop而被解雇(Nobody ever got fired for using Hadoop on a cluster)”,言外之意,在目前大數(shù)據(jù)語(yǔ)境下,使用“類(lèi)Hadoop(Hadoop-like)”工具分析大數(shù)據(jù)是未來(lái)主流的趨勢(shì)之一,就業(yè)市場(chǎng)一片光明。
從上面的分析可以看出,我們不否認(rèn),大數(shù)據(jù)是前沿,但我們更不能對(duì)目前的現(xiàn)狀熟視無(wú)睹——小數(shù)據(jù)依然是主流。目前大多數(shù)公司、企業(yè)其實(shí)仍處于“小數(shù)據(jù)”處理階段。但只要在縱向上有一定的時(shí)間積累,在橫向上有較豐富的記錄細(xì)節(jié),通過(guò)多個(gè)源頭對(duì)同一個(gè)對(duì)象采集的各種數(shù)據(jù)有機(jī)整合,實(shí)施合理的數(shù)據(jù)分析,就可能產(chǎn)生大價(jià)值。基于此,李國(guó)杰院士指出,在大數(shù)據(jù)時(shí)代,我們是不能拋棄“小數(shù)據(jù)”的[9]。
對(duì)精確的追求,歷來(lái)是傳統(tǒng)的小數(shù)據(jù)分析的強(qiáng)項(xiàng),這在一定程度上彌補(bǔ)大數(shù)據(jù)的“混雜性”缺陷。猶如有句歌詞唱得那樣:“結(jié)識(shí)新朋友,不忘老朋友”。在大數(shù)據(jù)時(shí)代,我們也不能忘記小數(shù)據(jù)。大數(shù)據(jù)有大數(shù)據(jù)的力量,小數(shù)據(jù)有小數(shù)據(jù)的美。下面我們就聊聊這個(gè)話題。
4.你若安好,便是晴天——小數(shù)據(jù)之美
小數(shù)據(jù),其實(shí)是大數(shù)據(jù)的一個(gè)有趣側(cè)面,是其眾多維度的一維。有時(shí),我們需要大數(shù)據(jù)的全維度可視,周濤教授甚至把“全息可見(jiàn)”作為大數(shù)據(jù)的特征,而這個(gè)特征在對(duì)用戶數(shù)字“畫(huà)像”時(shí),非常有用,因?yàn)檫@樣做,非常有利于商家推廣“精準(zhǔn)營(yíng)銷(xiāo)”。
在這里,我們?cè)俅螐?qiáng)調(diào)托馬斯·克倫普的哲學(xué)觀——數(shù)據(jù)的本質(zhì)是人。技術(shù)也是為人服務(wù)的。對(duì)于 “普羅大眾”而言,有時(shí),我們并不希望自己被數(shù)字化,被全息透明化,這就涉及到個(gè)人隱私問(wèn)題了。如果大數(shù)據(jù)技術(shù)侵犯?jìng)€(gè)人的隱私,讓受眾不開(kāi)心了,那這個(gè)技術(shù)就應(yīng)該有所限制和規(guī)范,但這不在本文的討論范圍,就不展開(kāi)說(shuō)了。
流行的“大數(shù)據(jù)”定義是:“無(wú)法通過(guò)目前主流軟件工具在合理時(shí)間內(nèi)采集、存儲(chǔ)、處理的數(shù)據(jù)集”。我們很容易反其道而用之,定義出“小數(shù)據(jù)(small data)”, “通過(guò)目前主流軟件工具可以在合理時(shí)間內(nèi)采集、存儲(chǔ)、處理的數(shù)據(jù)集”。這就是傳統(tǒng)意義上的小數(shù)據(jù),經(jīng)典的數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘知識(shí),可以較好地解決這類(lèi)問(wèn)題。這個(gè)范疇的小數(shù)據(jù),屬于老生常談,所以本文不談。
我們下文討論的小數(shù)據(jù),是一類(lèi)新興的數(shù)據(jù),它是圍繞個(gè)人為中心全方位的數(shù)據(jù),是我們每個(gè)個(gè)體的數(shù)字化信息,因此,也有人稱(chēng)之為“iData”。這類(lèi)小數(shù)據(jù)跟大數(shù)據(jù)的根本區(qū)別在于,小數(shù)據(jù)主要以單個(gè)人為研究對(duì)象,重點(diǎn)在于深度,對(duì)個(gè)人數(shù)據(jù)深入的精確的挖掘,對(duì)比而言,大數(shù)據(jù)則側(cè)重在某個(gè)領(lǐng)域方面,在大范圍、大規(guī)模全面數(shù)據(jù)收集處理分析, 側(cè)重在于廣度。
小數(shù)據(jù)是大數(shù)據(jù)的某個(gè)側(cè)面,事實(shí)上,很多時(shí)候,對(duì)于個(gè)人而言,這個(gè)所謂的側(cè)面就有可能是特定個(gè)人的全面。當(dāng)大數(shù)據(jù)受萬(wàn)人矚目時(shí),創(chuàng)新技術(shù)(如智能手機(jī)、智能手環(huán)及智能體育等)也讓小數(shù)據(jù)——個(gè)人的自我量化(Quantified Self,QS), “面朝大海,春暖花開(kāi)”。
個(gè)人量化,可以測(cè)量、跟蹤、分析我們?nèi)粘I钪悬c(diǎn)點(diǎn)滴滴。比如,今天的早餐我攝入了多少卡路里?圍著操場(chǎng)跑一圈我消耗了多少熱量,在手機(jī)的某個(gè)App(如微信)上我耗費(fèi)了多少時(shí)間?等等諸如此類(lèi)。在某種程度上,是小數(shù)據(jù),而非大數(shù)據(jù),才是我們生活的幫手。“小數(shù)據(jù)”不比大數(shù)據(jù)那樣浩瀚繁雜,卻對(duì)我自己至關(guān)重要。下面我們用兩個(gè)小案例來(lái)說(shuō)明小數(shù)據(jù)的應(yīng)用。
先說(shuō)一個(gè)稍微高大上的案例。據(jù)科技記者Emily Waltz在IEEE Spectrum的撰文指出[20],目前佩戴在運(yùn)動(dòng)員身上生物小配件(Biometric gadget,通常指?jìng)鞲衅?,正在改變世界精英級(jí)運(yùn)動(dòng)員的訓(xùn)練方式。這些可穿戴傳感器設(shè)備,提供實(shí)時(shí)的生理參數(shù),而在以前,倘若要獲取這樣的數(shù)據(jù),需要笨重和昂貴的實(shí)驗(yàn)室設(shè)備。如同40年前,風(fēng)靡一時(shí)的負(fù)重訓(xùn)練方案,可讓運(yùn)動(dòng)員更有韌性,可穿戴裝備能幫助運(yùn)動(dòng)員提高成績(jī)并同時(shí)避免受傷。一些棒球手、自行車(chē)運(yùn)動(dòng)員和橄欖球等競(jìng)技運(yùn)動(dòng)員用新裝備尋求優(yōu)勢(shì)。
圖11 運(yùn)動(dòng)員利用可穿戴設(shè)備訓(xùn)練美式橄欖球
例如,在如圖11所示的裝備中,運(yùn)動(dòng)員身上的傳感器能夠精確記錄在室內(nèi)外場(chǎng)館的運(yùn)動(dòng)特征。這些自我量化設(shè)備,可放置于運(yùn)動(dòng)員背部的壓縮衣中,它能夠監(jiān)控運(yùn)動(dòng)員的加速、減速、方向改變以及跳躍高度和運(yùn)動(dòng)距離等指標(biāo)。教練員能夠通過(guò)監(jiān)控?cái)?shù)據(jù),來(lái)檢測(cè)每個(gè)運(yùn)動(dòng)員訓(xùn)練強(qiáng)度,并防止過(guò)度訓(xùn)練所帶來(lái)的傷害。這些自我量化設(shè)備的工作原理是,協(xié)同使用很多小設(shè)備,如加速計(jì)、磁力計(jì)、陀螺儀、GPS接收儀等——這些設(shè)備每秒能夠產(chǎn)生100個(gè)數(shù)據(jù)點(diǎn)。通過(guò)無(wú)線連接,計(jì)算機(jī)可以實(shí)時(shí)采集這些數(shù)據(jù)。個(gè)人量化分析軟件,可對(duì)運(yùn)動(dòng)特征和特定位置實(shí)施分析,計(jì)算機(jī)專(zhuān)家系統(tǒng)中的算法,可以檢測(cè)到運(yùn)動(dòng)員在做對(duì)了什么、做錯(cuò)了什么,基于此,教練可以給出更加有針對(duì)性的訓(xùn)練。目前此類(lèi)設(shè)備的使用者,包括一半以上的NFL(橄欖球聯(lián)盟)、三分之一的NBA運(yùn)動(dòng)員、一半以上的英超球隊(duì)以及世界各地的足球隊(duì)、橄欖球隊(duì)和劃船運(yùn)動(dòng)隊(duì)等。
自我量化設(shè)備(可穿戴設(shè)備)通常是和物聯(lián)網(wǎng)(Internet of things,IoT)是有關(guān)聯(lián)的。而現(xiàn)在還處于炒作巔峰的物聯(lián)網(wǎng)(如圖8所示),通常是和大數(shù)據(jù)扯到一起的,但是就某個(gè)具體的物聯(lián)網(wǎng)設(shè)備而言,它一定先是產(chǎn)生少量的甚至是微量的數(shù)據(jù),也就是說(shuō),物聯(lián)網(wǎng)首先是小數(shù)據(jù),然后才能匯集成大數(shù)據(jù)。沃頓商學(xué)院教授、紐約時(shí)報(bào)最佳暢銷(xiāo)書(shū)作者喬納·伯杰(Jonah Berger)推測(cè)[21],個(gè)人的自我量化數(shù)據(jù),或許將會(huì)是大數(shù)據(jù)革命中下一個(gè)演進(jìn)方向。由此可見(jiàn),大、小數(shù)據(jù)之間并無(wú)明顯的界限。再大的數(shù)據(jù)也是人們一點(diǎn)一滴聚沙成塔、集腋成裘的。沒(méi)有小數(shù)據(jù)的積少成多、百川歸海,大數(shù)據(jù)也是無(wú)源之水、無(wú)本之木。
但如同中國(guó)那句老話說(shuō)的,“一屋不掃,何以掃天下”,如果小數(shù)據(jù)都不能很好地處理,如何來(lái)很好地處理“匯集”而來(lái)的大數(shù)據(jù)?
說(shuō)完高大上的案例,下面我們?cè)倭牧囊粋€(gè)“平淡無(wú)奇”生活小案例[22]:
故事的主人是美國(guó)康奈爾大學(xué)教授德波哈爾·艾斯汀(Deborah Estrin)。Estrin的父親于2012年去世了,而早在父親去世之前的幾個(gè)月里,這位計(jì)算機(jī)科學(xué)教授就注意到一些“蛛絲馬跡”, 相比從前,父親在數(shù)字社會(huì)脈動(dòng)(social pulse)中,已有些許變化——他不再查閱電子郵件,到附近散步的距離也越來(lái)越短,也不去超市買(mǎi)菜了。
然而,這種逐漸衰弱的跡象,在他去醫(yī)院進(jìn)行的常規(guī)心臟病(cardiologist)體檢中,不一定能看出來(lái)。不管是測(cè)脈搏,還是查病歷,這位90歲的老人都沒(méi)有表現(xiàn)出特別明顯的異常。可事實(shí)上,倘若追蹤他每時(shí)每刻的個(gè)體化數(shù)據(jù),這些數(shù)據(jù)雖小,但也足夠刻畫(huà)好出,老人的生活其實(shí)已然明顯與之前不同。
這種日常自我量化的小數(shù)據(jù),帶來(lái)了生命訊息的警示和洞察,啟發(fā)了這位計(jì)算機(jī)科學(xué)教授,促使Estrin在康奈爾大學(xué)創(chuàng)建創(chuàng)建了“小數(shù)據(jù)實(shí)驗(yàn)(the small data lab @CornellTech,訪問(wèn)鏈接:http://smalldata.io/)”。在Estrin看來(lái),小數(shù)據(jù)可以看作是一種新的醫(yī)學(xué)證據(jù),它僅是“他們的數(shù)據(jù)中屬于你的那一行(your row of their data)”[23] 。
舍恩伯格教授在其著作《大數(shù)據(jù)時(shí)代》中,將大數(shù)據(jù)定義為全數(shù)據(jù)(即n=All,n為數(shù)據(jù)的大小),其旨在收集和分析與某事物相關(guān)的“全部”數(shù)據(jù)。類(lèi)似的, Estrin將小數(shù)據(jù)定義為:“small data where n=me”,它表示,小數(shù)據(jù)就是全部有關(guān)于我(me)的數(shù)據(jù)[24]。
如此一來(lái),可以看出,小數(shù)據(jù)更加“以人為本”,它可以為我們提供更多研究的可能性:能不能通過(guò)分析年老父母的集成數(shù)據(jù),進(jìn)而獲得他們的健康信息?能不能通過(guò)這些集成數(shù)據(jù),比較不同的醫(yī)學(xué)治療方案?如果這些能實(shí)現(xiàn),“你若安好,便是晴天”,便不再是一句空洞的“文藝腔”,而是一席“溫情脈脈”的期望。
人,是一切數(shù)據(jù)存在的根本。人的需求是所有科技變革發(fā)展的動(dòng)力。可以預(yù)見(jiàn),不遠(yuǎn)的將來(lái),數(shù)據(jù)革命下一步將進(jìn)入以人為本的小數(shù)據(jù)的大時(shí)代。當(dāng)然,這并非說(shuō)大數(shù)據(jù)就不重要。一般來(lái)說(shuō),從大數(shù)據(jù)得到規(guī)律,用小數(shù)據(jù)去匹配個(gè)人。吳甘沙先生用《一代宗師》的臺(tái)詞來(lái)比擬大、小數(shù)據(jù)的區(qū)分,倒也甚是恰當(dāng)。他說(shuō),小數(shù)據(jù)“見(jiàn)微”,作個(gè)人刻畫(huà),可用《一代宗師》中“見(jiàn)自己”形容之;而大數(shù)據(jù)“知著”,反映自然和群體的特征和趨勢(shì),可用《一代宗師》中的 “見(jiàn)天地、見(jiàn)眾生”比喻之。
著名科技史學(xué)家馬爾文·克蘭茲伯格(Melvin Kranzberg)提出的“克蘭茲伯格第一定律”指出,“技術(shù)既無(wú)好壞,亦非中立”,即技術(shù)確實(shí)是一種力量,但“與社會(huì)生態(tài)技術(shù)的相互作用,使得技術(shù)發(fā)展經(jīng)常有問(wèn)題,遠(yuǎn)遠(yuǎn)超出了技術(shù)設(shè)備的直接目的和實(shí)踐自己的環(huán)境,人類(lèi)釋放出來(lái)的技術(shù)力量與人類(lèi)本身互動(dòng)的復(fù)雜矩陣,都是有待探索的問(wèn)題,而非必然命運(yùn)”。
前面我們說(shuō)道大數(shù)據(jù)可能存在數(shù)據(jù)安全及隱私問(wèn)題,事實(shí)上,小數(shù)據(jù)同樣存在類(lèi)似的問(wèn)題,甚至更為嚴(yán)峻。我們應(yīng)清楚,諸如大數(shù)據(jù)、小數(shù)據(jù)的科技,既可以為公眾謀福利,也可能對(duì)人造成傷害。關(guān)鍵就是,如何在機(jī)遇與挑戰(zhàn)間尋找到最佳的平衡。
5.小結(jié)
在數(shù)據(jù)的江湖里,既有波瀾壯闊的大數(shù)據(jù),也有細(xì)流漣漪的小數(shù)據(jù),二者相輔相成,才能相映生輝。美國(guó)電子電氣工程師協(xié)會(huì)會(huì)士(IEEE Fellow)、中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員閔應(yīng)驊表示[25]:目前大數(shù)據(jù)流行,人們就“言必稱(chēng)大數(shù)據(jù)”,這不是做學(xué)問(wèn)的態(tài)度,不要碰到大量的數(shù)據(jù),就給它戴上一頂帽子“大數(shù)據(jù)”。目前,各行各業(yè)碰到的數(shù)據(jù)處理多數(shù)還是“小數(shù)據(jù)”問(wèn)題。不管是大數(shù)據(jù)還是小數(shù)據(jù),我們應(yīng)該敞開(kāi)思想,研究實(shí)際問(wèn)題,切忌空談,精準(zhǔn)定位碰到的數(shù)據(jù)業(yè)務(wù)問(wèn)題,以應(yīng)用為導(dǎo)向,而非以技術(shù)為導(dǎo)向,不要哪個(gè)技術(shù)熱,追逐哪個(gè)。
《Fierce Big Data》編輯Pam Baker表明[26],當(dāng)你在尋思如何抉擇大數(shù)據(jù),還是小數(shù)據(jù)時(shí),先擱置這事兒。思量一下,你的公司是否擅長(zhǎng)利用數(shù)據(jù)創(chuàng)造價(jià)值,如果你的公司還沒(méi)有達(dá)到這個(gè)境界,那先把這事解決了再說(shuō)。
前中信銀行行長(zhǎng)、中信集團(tuán)監(jiān)事長(zhǎng)朱小黃也曾說(shuō)[27]:“數(shù)據(jù)本無(wú)大小,但運(yùn)用數(shù)據(jù)的立場(chǎng)卻分大小,是謂大數(shù)據(jù)”。深以為然。
在京劇《沙家浜》有句經(jīng)典唱詞:“壘起七星灶,銅壺煮三江。擺開(kāi)八仙桌,招待十六方”。如果大數(shù)據(jù)、小數(shù)據(jù)是這“八仙桌”上的菜,來(lái)自“十六方”的您,在下口之前,一定要先確定,哪道才是你的菜,不然花了冤枉錢(qián),還沒(méi)有吃好,那可就“整個(gè)人都不好了”。