近年來,“大數據”已經從一個流行詞演變成了一個被廣為看好的產業鏈。社會各界多從功用性角度出發看待大數據,而較少思考大數據的認知本質。從認知科學的 角度而言,大數據自身并無內在的價值或者意義,其價值或者意義本質上是認知依存的:認知框架決定或者定義大數據的價值和意義。
大數據:機遇和挑戰并存
“大數據”業已成為社會最引人關注的“熱詞”之一,但是,有關大數據的定義卻不一而論。目前社會各界對大數據的理解多是狹義的,如食品安全大數據、粉絲大數據、經濟大數據、農業大數據、科技大數據,等等。
在探討大數據時,社會各界多集中在其所帶來的裨益或者可能面臨的潛在挑戰上。對大數據持樂觀態度的人認為:它有利于優化社會管理、行政管理、政府決策 并可能促發社會變革;有利于保障民權;有利于反腐,能使權力受到有效監督,并促使社會制度進一步完善;增加對各類社會事件預測的準確性,從而使世界變得更 宜居,人類的生存環境變得更安全。對大數據持批評性態度的人認為:其一,受限于當前的運算技術、數據斷裂和封閉以及諸多人為因素,出現了很多偽運算結果, 導致大數據可能成為“大忽悠”,從而導致各種潛在風險。其二,大數據侵犯個人隱私。大數據時代,個體沒有隱私,個體的各種行為痕跡都被放大在大數據的顯微 鏡下。其三,大數據可能存在“陷阱”,數據不是越大越好。受制于多方因素的影響,大數據甚至會導致“假規律”和“偽相關”。
認知“陷阱”
梳理時下有關大數據的各種信息以及相關論述。我們發現,人們在對待大數據方面存在諸多認知“陷阱”。
美國大學的一些研究人員在對大數據最早也是最知名的應用之一——“Google Flu Trends(谷歌流感趨勢)”——流感爆發預測的某些失真案例進行分析研究后指出:人們對大數據的熱捧很可能催生一股“大數據自大思潮”。這股思潮的核 心是,大數據可以完全取代傳統的數據收集和分析方法。“大數據自大思潮”的核心問題在于:大數據未必是最具代表性的數據;大數據可能只是巨量的龐雜數據, 而非真正意義上的價值數據。
在大數據問題上,除“大數據自大思潮”的風險之外,人們對大數據普遍持有的利弊觀實質上反映的是我們對大數據的另外一種普遍認知“陷阱”:大數據內在 價值論。這種內在價值的存在使得大數據自身會說話!大數據說真話的時候,我們享受到的是大數據帶來的裨益,而其說假話的時候,我們則面臨著其帶來的潛在風 險。
殊不知,從認知科學的角度而言,大數據作為一種海量數據,其自身并沒有任何內在的價值和意義,其價值和意義受制于我們認知系統中各種認知框架對它的認 知分析和解讀。所有語詞的理解和定義都是有賴于框架依存的。當我們聽到一個語詞,與其相關的概念框架就會在我們的腦中被激活。若語詞所激活的概念框架是我 們后臺認知系統的一部分,那么,我們就能理解該詞的語義。設若語詞所激活的概念框架與我們的后臺認知系統相沖突,那么,我們就不解其意。“框架”的認知功 能在于型塑我們看待世界的方式。因此,數據或者信息要想被我們理解和接受,它們必須和我們腦中內在的認知框架相匹配。如果數據或者信息和認知框架不相匹配 或者相沖突,那么,框架照舊保留,數據則被框架彈出而變得毫無意義。認知框架是一把“雙刃劍”:它一方面賦予數據以價值和意義,另一方面則有可能剝奪數據 的價值和意義。
唯有“大理解”,大數據的價值才能凸顯
對在數量上可控的“小數據”而言,其最有價值的不是數據本身,而是創新性的數據分析、解讀、理解和認知模式。雖然大數據在表面上看是海量或者巨量信息 的無限膨脹,但數量之巨并未改變數據的本質。大數據本質上仍然是一種數據。既然同屬數據范疇,大數據最有價值的也并不僅僅體現在信息之“巨量”上,真正決 定和實現大數據價值的同樣是創新性的數據分析、解讀、理解和認知模式。換言之,大數據只有變成了“大理解”,大數據的價值才能真正凸顯。
“大理解”概念是美國的一家私有非盈利機構TED(技術、娛樂、設計)的創始人提出的。2014年8月27日,TED創始人理查德·沃曼曾談到:“我 們需要將大數據變為大理解。只有真正理解數據,才能觸及到人本身”。沃曼沒有給出“大理解”的定義?;诖髷祿男畔⒑A啃曰蛘哒f巨量性,我把“大理解” 闡釋為一種“超理解”,即一種大大超越人類現有理解極限的巨延性概念化活動。
從認知科學的角度而言,我認為要真正實現從“大數據”到“大理解”的轉變,取決于我們在多大程度上具有“大認知”能力。廣義上,“大認知”指的是一種 大大超越人類認知極限的、以理解“大宇宙”為最終目的的巨延性概念化活動。狹義上,“大認知”指的是一種大大超越人類認知極限的、以理解某個特定區域或者 領域之方方面面為最終目的的巨延性概念化活動。
只有在“大認知”的視野下,大數據才真正具有價值和意義。對任何一個特定的人類概念系統而言,不管其思維力有多么強大,其所能處理的信息或者數據都具 有認知局限性。這種局限性主要表現在三個方面:一是,其對信息的處理和理解是選擇性的;二是,其所能處理和理解的信息類型具有局限性;三是,其所能處理和 理解的信息數量具有局限性。
人類概念系統對信息處理的局限性在很大程度上使得“信息膨脹”這個概念事實上成為了一個偽命題:由于特定概念系統所能處理和理解的信息在本質上是具有 認知局限性的,故超出特定概念系統所能處理和理解的、處于信息理解臨界點之外的那部分信息,不管其在數量上是大抑或小,它們對這一特定概念系統而言實質上 是無意義的、無用的,抑或是“不可見”的。如果我們把某一特定概念系統所能處理和理解的全部數據或者信息定義為真正意義上的數據或者信息,那么,這一概念 系統所不能理解的數據或者信息在本質上則不是真正意義上的信息,或者說是無價值信息?;诖?能被某一特定概念系統處理和理解的、真正意義上的數據或者信 息是不存在“膨脹”之說的:因為不管它們怎么膨脹,最終都能被特定概念系統中的各種認知框架所消化、吸收、接受并理解。而不能被某一特定概念系統理解的、 并非真正意義上的數據或者信息雖然在理論上可以無限“膨脹”,但由于這種“膨脹”對于這一特定概念系統而言是“不可見”的,因而這種“膨脹”對于那個特定 的概念系統而言是無用的和沒有任何意義的。這種“信息膨脹”的無意義實質上消解了“膨脹”的內在意義,使得“信息膨脹”成為一個偽命題。
認識到“信息膨脹”有可能是個偽命題的重要意義在于:由于“信息膨脹”是導致大數據產生的重要原因之一,若“信息膨脹”是個偽命題,那么大數據在很大 程度上可能就是“大忽悠”。從認知框架決定數據或者信息的價值和意義這個角度而言,要避免大數據成為“大忽悠”,我們需要引入“大認知”概念。
借用當前的一句流行語,“大認知”本質上是“超神一樣”的認知。有鑒于人類永遠達不到“超神一樣”的認知能力,故雖然大數據中存在著巨大的科學可能 性,但是,大數據技術還遠未到可以取代更傳統之方法或者理論的地步。在當前看來,大數據產業可能更多的是一種具有超大想象空間的技術愿景。