亚洲精品欧美精品日韩精品,亚洲欧美视频一区,亚洲一区二区三区网站

從大數(shù)據(jù)危機到全數(shù)據(jù)革命

責(zé)任編輯：editor004

2015-03-23 12:25:09

摘自：《中國社會科學(xué)報》

內(nèi)容摘要：2014年 3月，《科學(xué)》雜志在“政策論壇”欄目發(fā)表了Laser等人的一篇題為《谷歌流感寓言：大數(shù)據(jù)分析陷阱》的論文，引起了人們對大數(shù)據(jù)的警惕。關(guān)鍵詞：預(yù)測;收集;認知;分析;搜索行為;延性;谷歌流感;數(shù)據(jù)革命;搜索運算;

2014年3月，《科學(xué)》雜志在“政策論壇”欄目發(fā)表了Laser等人的一篇題為《谷歌流感寓言：大數(shù)據(jù)分析陷阱》的論文，引起了人們對大數(shù)據(jù)的警惕。論文作者援引2013年2月《自然》雜志發(fā)表的一篇論文所提供的數(shù)據(jù)指出，谷歌所預(yù)測的有關(guān)流感類疾病的就醫(yī)比例，是美國疾病防控中心所獲得的數(shù)據(jù)的兩倍多。前者的結(jié)論基于與流感相關(guān)的大數(shù)據(jù)搜索得出，而后者的數(shù)據(jù)依據(jù)對全美各個實驗室的流感監(jiān)控報告得出。

谷歌流感趨勢預(yù)測失真的事實讓學(xué)者們開始思考這樣一個問題：鑒于這是對大數(shù)據(jù)的補充性使用，我們到底可以從這個預(yù)測錯誤中得到什么教訓(xùn)？Laser等人得出的結(jié)論是：盡管搜索或者社會媒體等提供的數(shù)據(jù)可以被用于預(yù)測，但是，大數(shù)據(jù)遠未到完全取代傳統(tǒng)方法、假設(shè)或者理論的時候。

　　“不可重復(fù)性”危機

Laser等人認為，造成谷歌流感趨勢預(yù)測失真的兩個重要因素是數(shù)據(jù)自大（data hubris）和搜索運算動態(tài)性（algorithm dynamics）。數(shù)據(jù)自大是指：大數(shù)據(jù)不僅僅是補充性的，而且可以完全替代傳統(tǒng)的數(shù)據(jù)采集和分析方法。搜索運算動態(tài)性是指：數(shù)據(jù)運營商為支持其商業(yè)模式、改善其服務(wù)質(zhì)量、適應(yīng)用戶行為的改變將對搜索運算方法產(chǎn)生各種影響。以谷歌流感趨勢預(yù)測為例，因其致力于不斷地測試和改善搜索體驗，故搜索運算方法一直在變，而這不僅是谷歌眾多工程師反復(fù)決策的結(jié)果，同時也是其分布在世界各地的數(shù)以億計的客戶的搜索行為所致，并最終影響其預(yù)測結(jié)果。每一次數(shù)據(jù)運算收集和運算方式的改變，都在影響數(shù)據(jù)生成和收集的連貫性。另外，一些有影響力的搜索主體，還會試圖通過操控數(shù)據(jù)生成過程的方式來達到自己獲取經(jīng)濟、政治或者社會收益的目的。如此，數(shù)據(jù)生成和收集之間將出現(xiàn)斷裂。

搜索運算動態(tài)性因此可能導(dǎo)致大數(shù)據(jù)研究的“不可重復(fù)性”危機。可重復(fù)性是指科學(xué)研究被重復(fù)實施時得到的結(jié)論與原研究結(jié)論之間的一致性程度，它是科學(xué)與非科學(xué)的分界線。目前，幾乎所有的大數(shù)據(jù)研究都面臨“不可重復(fù)性”危機。數(shù)據(jù)搜索方式的頻繁改變，使人們無法獲取連貫的大數(shù)據(jù)。這使其研究不可被證偽，因此有效性大打折扣。

大數(shù)據(jù)的“不完全代表性”

大數(shù)據(jù)所面臨的另外一個挑戰(zhàn)是，其本質(zhì)上具有“不完全代表性”。社會各界對于“大數(shù)據(jù)”的一個較為廣泛的看法是：數(shù)據(jù)量越大越好。但這并非絕對。事實上，大數(shù)據(jù)的價值在很大程度上取決于其連貫性與代表性。

大數(shù)據(jù)概念的提出，使得所有依靠傳統(tǒng)方式收集到的數(shù)據(jù)變成了“小數(shù)據(jù)”。但受制于數(shù)據(jù)生成、收集、遴選和加工等因素的局限性，所有數(shù)據(jù)本質(zhì)上都受到“不完全代表性”的困擾。作為“小數(shù)據(jù)”的范例樣本，語料庫的“不完全代表性”屢屢受到學(xué)術(shù)界詬病。語料的收集實際上就是對其的有原則選擇，而選擇總是意味著喪失一些重要信息。如此一來，語料庫總是有局限性。

必須指出的是，大數(shù)據(jù)本質(zhì)上也是“不完全代表性”的。這主要體現(xiàn)在以下四個方面。

其一，大數(shù)據(jù)在很大程度上是外部事件驅(qū)動以及數(shù)據(jù)服務(wù)商商業(yè)模式主導(dǎo)的結(jié)果。大數(shù)據(jù)的代表性與用戶搜索行為的代表性密切相關(guān)。但是，現(xiàn)在用戶的搜索行為在很多時候都受到外部事件驅(qū)動。Laser等人觀察到，不僅如此，服務(wù)商還會根據(jù)各自的商業(yè)模式有意識地對用戶的搜索行為進行誘導(dǎo)。

其二，大數(shù)據(jù)有可能受到數(shù)據(jù)運營商的操縱。在大數(shù)據(jù)產(chǎn)業(yè)鏈上，一個公開的秘密是，數(shù)據(jù)運營商時刻都在利用各種軟件監(jiān)控網(wǎng)民的搜索行為和習(xí)慣。這種監(jiān)控越成功，用戶的搜索行為越受到操控，最終得到的大數(shù)據(jù)也就越缺乏代表性。

其三，大數(shù)據(jù)在某些情況下可能只是諸多無效信息的無度膨脹。大數(shù)據(jù)所收集到的海量信息，很可能都是人類各種轉(zhuǎn)瞬即逝行為的碎片或痕跡，而后者只是各種外部因素和內(nèi)部因素，如情緒、欲望、從眾效應(yīng)等合力作用的結(jié)果，在很大程度上可能與用戶的基本行為模式或者價值體系背離。

其四，真正有價值的數(shù)據(jù)是認知無意識數(shù)據(jù)，但限于目前的大數(shù)據(jù)挖掘技術(shù)，這部分數(shù)據(jù)仍不可能被挖掘出來。甚至在將來的很長一段時間內(nèi)，我們也還沒有能力挖掘人類認知無意識活動的技術(shù)性留痕。

期待全數(shù)據(jù)革命

此外，大數(shù)據(jù)還面臨其他挑戰(zhàn)。如大數(shù)據(jù)生成的有效性問題。Laser等人指出，很多引起大眾關(guān)注的大數(shù)據(jù)都不是由專門為科學(xué)分析需要而設(shè)計的、可以收集到有效而可靠資料的各種數(shù)據(jù)收集工具的產(chǎn)物。又如道德問題。在大數(shù)據(jù)時代，每個人都是大數(shù)據(jù)的貢獻者，當我們?yōu)g覽網(wǎng)頁、網(wǎng)購、掃描二維碼、使用微博和微信以及安裝手機應(yīng)用程序時，我們的個人信息、消費習(xí)慣、偏好、社交圈子等，均已經(jīng)被大數(shù)據(jù)生成工具捕獲，從而在不自知的情況下泄露了隱私。大數(shù)據(jù)對用戶隱私的侵害，可能給用戶的資金、財產(chǎn)安全，甚至個人安全造成潛在的威脅。再如大數(shù)據(jù)對“小數(shù)據(jù)”的完全排斥問題。這主要表現(xiàn)在：傳統(tǒng)的“小數(shù)據(jù)”所提供的信息通常不包含在大數(shù)據(jù)之中。Laser等人觀察到，谷歌流感趨勢預(yù)測忽視了很多傳統(tǒng)統(tǒng)計方法可以獲取的信息。

Laser等人指出，鑒于大數(shù)據(jù)所面臨的各種危機和挑戰(zhàn)，在當下我們應(yīng)該聚焦于“全數(shù)據(jù)革命”而不是“大數(shù)據(jù)革命”。全數(shù)據(jù)革命的核心思想是，我們應(yīng)該認識到世界的關(guān)鍵變化在于：創(chuàng)新性地分析從所有傳統(tǒng)和新媒介獲取的數(shù)據(jù)，以更為深入透徹地理解世界。由于創(chuàng)新的數(shù)據(jù)分析方法關(guān)涉到創(chuàng)新性的思維或者認知模式，因此，全數(shù)據(jù)革命的核心在于以巨延性的“大認知”代替“大數(shù)據(jù)思維”。廣義上，“大認知”指的是一種大大超越人類認知極限的、以理解世界整體為最終目的的巨延性概念化活動。狹義上，其指的是一種大大超越人類認知極限的、以理解某個特定區(qū)域（如國家或者地區(qū)）或者領(lǐng)域（如某一行業(yè)或者某一專業(yè)領(lǐng)域）之方方面面為最終目的的巨延性概念化活動。

目前，大數(shù)據(jù)產(chǎn)業(yè)鏈條業(yè)已形成，其包括數(shù)據(jù)需求、挖掘、生成、存儲、管理、查詢、提取、處理以及展示處理分析結(jié)果和應(yīng)用等多個環(huán)節(jié)。其中，大數(shù)據(jù)處理環(huán)節(jié)至關(guān)重要，并涉及一系列難題：數(shù)據(jù)可靠性甄別、數(shù)據(jù)測量、數(shù)據(jù)有效性判斷、數(shù)據(jù)之間關(guān)聯(lián)性和依存性判斷、數(shù)據(jù)的模式化以及數(shù)據(jù)的價值判斷等。這些難題是單純的“大數(shù)據(jù)思維”所無法解決的。

“大數(shù)據(jù)思維”本質(zhì)上是“技術(shù)性思維”的互聯(lián)網(wǎng)化，主要試圖利用機器的無限運算以及多元回歸能力完成數(shù)據(jù)的模式化分析。但此概念的認知陷阱在于：錯把技術(shù)性思維當成思維的全部。事實上，思維是個外延極其廣泛的概念，它既有技術(shù)維度，又有心理、認知、社會、政治及文化維度。鑒于大數(shù)據(jù)在數(shù)據(jù)量方面的巨延性，因此，要真正實現(xiàn)對大數(shù)據(jù)的創(chuàng)新性分析，我們需借助在概念化方面有著同樣巨延性的“大認知”。

多元回歸傳統(tǒng)統(tǒng)計