本文系國家社會科學(xué)基金特別委托項目“大數(shù)據(jù)時代的哲學(xué)理論與社會發(fā)展”(編號14@ZH023)的階段性成果。
信息技術(shù)的發(fā)展使得科學(xué)研究與人類活動生產(chǎn)的數(shù)據(jù)呈指數(shù)級增長,一種新的透鏡——大數(shù)據(jù)——愈益主導(dǎo)著我們看世界的方式,這種方式不僅使科學(xué)進入數(shù)據(jù)密集型科學(xué)的新范式,而且為用數(shù)據(jù)認(rèn)識人類自身開啟了可能性空間。
基于大數(shù)據(jù)的知識發(fā)現(xiàn)為科學(xué)找到了新的起點——只要擁有足夠多的數(shù)據(jù)和足夠聰明的算法,就可能在認(rèn)識世界和理解我們自身方面獲得更深刻的洞見。但也要看到,讓“數(shù)據(jù)自己說話”是有其條件和與境的:一方面,所謂“原始數(shù)據(jù)”取決于獲取與處理數(shù)據(jù)的方式;另一方面,算法本身也是內(nèi)涵理論上的簡化與抽象。與庫薩的尼古拉對“有學(xué)識的無知”的思辨相類似,我們應(yīng)該反思可能面對的“有數(shù)據(jù)的無知”——基于大數(shù)據(jù)的知識發(fā)現(xiàn)固然開啟了一種認(rèn)識世界的新視角,仍不可避免地有其局限性與邊界。而這一反思的前提則是對大數(shù)據(jù)知識發(fā)現(xiàn)的研究對象——大數(shù)據(jù)的本體論預(yù)設(shè)及其配置(configuration)展開追問和反思。
一、基于大數(shù)據(jù)的知識發(fā)現(xiàn)的興起
隨著計算與網(wǎng)絡(luò)通信技術(shù)、觀測與傳感儀器以及數(shù)字存儲的發(fā)展,很多學(xué)科從數(shù)據(jù)貧乏轉(zhuǎn)變?yōu)閿?shù)據(jù)富集的研究領(lǐng)域,生物學(xué)、物理學(xué)、認(rèn)知科學(xué)、工程技術(shù)乃至社會科學(xué)領(lǐng)域的新發(fā)現(xiàn)越來越多地基于數(shù)據(jù)驅(qū)動,日益取決于我們對數(shù)據(jù)的獲取、共享、整合、分析以及構(gòu)建預(yù)測模型的能力。其中,起關(guān)鍵作用的現(xiàn)代數(shù)據(jù)分析技術(shù)將精細的概率模型、統(tǒng)計推理、數(shù)據(jù)挖掘與機器學(xué)習(xí)相結(jié)合,形成了從人類獲取與產(chǎn)生的各種數(shù)據(jù)中提取知識的有力途徑。由此,生物學(xué)家可應(yīng)用數(shù)據(jù)分析洞察生命信息及其獲取、編碼、處理與傳遞,神經(jīng)科學(xué)家得以揭示認(rèn)知的奧秘,醫(yī)生不僅可以對疾病進行診療還能幫助個人做出健康方面的選擇,社會科學(xué)家可以探究社會網(wǎng)絡(luò)的演化與動力,甚至人文學(xué)者也因而對文學(xué)、藝術(shù)、歷史與文化獲得新的理解。
基于數(shù)據(jù)的知識發(fā)現(xiàn)帶來了數(shù)據(jù)密集型(data-intensive)科學(xué)與網(wǎng)絡(luò)化科學(xué)的新發(fā)展。在天文、物理與生物等“大科學(xué)”研究中,各種數(shù)據(jù)呈現(xiàn)出指數(shù)增長的趨勢,數(shù)據(jù)不僅因此成為這些領(lǐng)域最為重要的研究資源,還催生出天體信息學(xué)、計算生物學(xué)、生態(tài)信息學(xué)、計算社會學(xué)等全新的進路與學(xué)科。格雷(J.Gray)等將此新的研究范式稱為“第四范式”:“新的研究模式是通過儀器收集數(shù)據(jù)或通過模擬方法產(chǎn)生數(shù)據(jù),然后用軟件進行處理,再將形成的信息和知識存儲于計算機中。科學(xué)家們只是在這個工作流中相當(dāng)靠后的步驟才開始審視他們的數(shù)據(jù)。用于這種數(shù)據(jù)密集型科學(xué)的技術(shù)和方法是如此迥然不同,所以,從計算科學(xué)中把數(shù)據(jù)密集型科學(xué)區(qū)分出來作為一個新的、科學(xué)探索的第四種范式頗有價值。”(Hey等,第XI頁)在此范式下,數(shù)據(jù)成為研究的主要對象和科學(xué)發(fā)現(xiàn)的主要資源,很多學(xué)科正在演變出X-Info和Comp-X兩個新的分支,如生態(tài)學(xué)既出現(xiàn)了與模擬生態(tài)學(xué)相關(guān)的計算生態(tài)學(xué),也在形成與搜集和分析生態(tài)信息本身相關(guān)的生態(tài)信息學(xué)。(同上)
與此同時,網(wǎng)絡(luò)化科學(xué)日益成為各個科學(xué)領(lǐng)域廣泛使用的科學(xué)發(fā)現(xiàn)模式,許多領(lǐng)域正在利用在線協(xié)作的方式構(gòu)建龐大的數(shù)據(jù)庫,以繪出宇宙的結(jié)構(gòu)、全球氣候的結(jié)構(gòu)、全球海洋的結(jié)構(gòu)、人類語言的結(jié)構(gòu)甚至所有物種的基因的結(jié)構(gòu),成百數(shù)千的科學(xué)家甚至科學(xué)愛好者將他們的工作集成起來,進而繪制出“整個世界”的圖譜。有了這些聚合起來的圖譜,任何研究者都可以利用計算機從中挖掘出事物之間不曾被發(fā)現(xiàn)的聯(lián)系。(尼爾森,第6頁)網(wǎng)絡(luò)化科學(xué)至少帶來了三個方面的改變。首先是強調(diào)在新知識發(fā)現(xiàn)中的協(xié)同創(chuàng)造,如菲爾茲獎得主、劍橋的數(shù)學(xué)家高爾斯(T.Gowers)挑選了一道意義重大的數(shù)學(xué)難題發(fā)布在博客上,邀請眾人解答,結(jié)果經(jīng)過短短的37天,不僅這個問題得到了解決,還解決了一個更難的問題。其次是數(shù)據(jù)開放共享成為形成知識洞見的前提,以基因銀行為例,從事人類基因組研究的科學(xué)家每次都會將新的遺傳數(shù)據(jù)上傳到基因銀行這一在線遺傳信息數(shù)據(jù)庫中,基因銀行對所有的遺傳信息加以整合,使之成為公開和可自由存取的在線數(shù)據(jù),任何人都可以運用這些數(shù)據(jù)開展研究。其三是科學(xué)與社會之間的關(guān)系的轉(zhuǎn)換,如“星系動物園”網(wǎng)站招募了超過20萬網(wǎng)絡(luò)志愿者幫助天文學(xué)家對星系照片進行分類,已完成對數(shù)以億計的星系的分類。
在社會層面,計算機網(wǎng)絡(luò)、移動通信技術(shù)、物聯(lián)網(wǎng)以及各種數(shù)據(jù)搜集與信息監(jiān)控系統(tǒng)產(chǎn)生了海量的實時數(shù)據(jù),各種社交網(wǎng)絡(luò)、數(shù)據(jù)終端與可穿戴設(shè)備使得個人數(shù)據(jù)得到全天候的搜集,進而形成實時的個人數(shù)據(jù)足跡。這使得政府與企業(yè)可以運用相關(guān)性分析等數(shù)據(jù)挖掘,從海量的數(shù)據(jù)洪流中挖掘出有價值的信息模式。由此,這些社會與個人行為數(shù)據(jù)不再僅僅是記錄、檔案或聲像資料,而成為社會與個人感知與決策的資源。尤其是基于互聯(lián)網(wǎng)的人類行為的數(shù)據(jù)挖掘和社會感知測量技術(shù)的出現(xiàn),使得數(shù)據(jù)驅(qū)動的知識成為認(rèn)識人和社會的全新的知識來源,商業(yè)智能與計算社會科學(xué)等及其在經(jīng)濟、管理和社會治理等層面的日益呈現(xiàn)出廣闊前景。
數(shù)據(jù)密集型科學(xué)、網(wǎng)絡(luò)化科學(xué)、商業(yè)智能與計算社會學(xué)的發(fā)展使得人們對計算和數(shù)據(jù)有了更加全面深入的理解,大數(shù)據(jù)這一時代性概念隨之浮出水面。人們一般用數(shù)量(Volume)、速度(Velocity)、多樣性(Variety)、精確性(Veracity)和價值(Value)等品質(zhì)來界定大數(shù)據(jù),但這些品質(zhì)實質(zhì)上是相對的,而且,我們很難也不必對大數(shù)據(jù)做出某種絕對的界定。因此,在這些抽象的品質(zhì)之外,基欽(R.Kitchin)進一步強調(diào)大數(shù)據(jù)具有的其他重要性質(zhì):(1)詳盡無遺,即窮盡了研究范圍內(nèi)的數(shù)據(jù);(2)精細的解決方案和獨到的區(qū)分索引;(3)關(guān)聯(lián)性,即存在可將不同領(lǐng)域聯(lián)系起來的共同領(lǐng)域;(4)彈性,包括延伸性與可擴展性。(Kitchin,p.2)波義德(D.Boyd)與克勞福德(K.Crawford)則強調(diào),大數(shù)據(jù)不僅意味著非常大的數(shù)據(jù)集合以及用于操控和分析數(shù)據(jù)的工具與程序,而且在于思想和研究上的計算轉(zhuǎn)向(computational turn)。正是基于這一轉(zhuǎn)向,大數(shù)據(jù)對人們的知識構(gòu)建、研究過程、與信息相處的方式以及實在的本性與范疇展開了重構(gòu),設(shè)定了新的關(guān)注對象、認(rèn)知方法,甚至對社會生活也做了新的界定。(cf.Boyd &Crawford,p.665)對此,安德森(C.Anderson)的觀點最為激進。在他看來,數(shù)據(jù)的洪流使得傳統(tǒng)科學(xué)方法落敗,大數(shù)據(jù)自身蘊含的模式與關(guān)系就可以對復(fù)雜的現(xiàn)象產(chǎn)生知識洞見。他認(rèn)為,海量的數(shù)據(jù)讓我們可以聲稱,相關(guān)性足矣,無需科學(xué)假說,而只要將數(shù)據(jù)輸入到計算陣列中即可用統(tǒng)計算法尋找傳統(tǒng)科學(xué)無法發(fā)現(xiàn)的模式;而且,鑒于相關(guān)性超越了因果性,在沒有自洽的模型、統(tǒng)一的理論甚至完全沒有機制說明的情況下,科學(xué)依然可以向前發(fā)展。在他看來,人們?yōu)楹我鍪裁床恢匾匾氖撬麄冏隽耍⑶椅覀兛梢郧八从械卣鎸嵉卣归_追蹤和測量;一旦擁有足夠的數(shù)據(jù),數(shù)字自己會說話。(cf.Anderson,p.23)
透過大數(shù)據(jù)支持者的觀點不難看到,大數(shù)據(jù)揭示了一種新的知識發(fā)現(xiàn)進路,即大數(shù)據(jù)處理與分析技術(shù)的出現(xiàn),使我們可處理以往難以處理的數(shù)量巨大、變化迅速、形式復(fù)雜的數(shù)據(jù),從中找到高度精準(zhǔn)和有價值的信息模式與知識。對此,信息哲學(xué)家弗洛里迪(L.Floridi)指出,大數(shù)據(jù)的真正問題并不在于數(shù)據(jù)之“大”,而在于如何從海量的數(shù)據(jù)中挖掘出其背后具有規(guī)律性的“小模式”。(cf.Floridi,p.436)從搜索引擎到電商巨頭,從生物信息學(xué)到神經(jīng)科學(xué),關(guān)鍵在于精準(zhǔn)地發(fā)現(xiàn)有意義的小模式。但這種小模式的發(fā)現(xiàn)并非易事。一個經(jīng)典的案例是“谷歌流感趨勢”(GFT),這一項目試圖根據(jù)人們在谷歌上對相關(guān)信息的搜索數(shù)據(jù)對流感信息做出預(yù)測,它一度大獲成功,其結(jié)果比美國疾病防控中心預(yù)報更為及時準(zhǔn)確,對流感的爆發(fā)乃至新一輪流感的出現(xiàn)能做出準(zhǔn)確及時的反應(yīng)。但不久GFT出現(xiàn)了夸大流感趨勢等失準(zhǔn)的情況。究其原因,一方面是其所依據(jù)的數(shù)據(jù)本身并不是專門針對其研究目的測度出的具有可重復(fù)性和相互關(guān)聯(lián)的準(zhǔn)確數(shù)據(jù);另一方面是對算法變化的不適應(yīng),即谷歌在搜索算法的改進上帶來了新的不確定性,例如為了提升搜索服務(wù)的質(zhì)量或商業(yè)上的需要,搜索引擎會對使用者的進一步搜索做出推薦或廣告推介,這些變化難免影響到GFT的數(shù)據(jù)采集。
由此可見,在基于大數(shù)據(jù)的知識發(fā)現(xiàn)中,數(shù)據(jù)是作為一種資源來開發(fā)的,數(shù)據(jù)本身多為已大量累積或不斷動態(tài)產(chǎn)生的,而且其形成可能與新的知識發(fā)現(xiàn)的目的并無必然的關(guān)系;而在傳統(tǒng)的科學(xué)研究中,數(shù)據(jù)一般是有目的(特別是檢驗理論)的研究觀測的結(jié)果,為了獲取數(shù)據(jù)往往需要設(shè)計專門的實驗?zāi)酥翆iT的觀測與記錄數(shù)據(jù)的工具。正是在此意義上,基于大數(shù)據(jù)的知識發(fā)現(xiàn)通常稱為數(shù)據(jù)挖掘。從挖掘這一隱喻來看,作為挖掘?qū)ο蟮?ldquo;礦”的產(chǎn)生與挖掘是兩個相對獨立的過程,大數(shù)據(jù)與以往的數(shù)據(jù)最大的不同是,它超越了資料層面而成為一種具有開發(fā)價值的“礦”。而大數(shù)據(jù)這種“礦”究竟意味著什么,或者說基于大數(shù)據(jù)的知識發(fā)現(xiàn)的對象的本質(zhì)是什么,就是本文所要展開的本體論追問。
二、世界的數(shù)據(jù)化表象及其“數(shù)據(jù)外貌”
大數(shù)據(jù)知識發(fā)現(xiàn)的研究對象主要是各種數(shù)據(jù)來源累積與動態(tài)生成的大數(shù)據(jù)集,它們給知識發(fā)現(xiàn)帶來了不少挑戰(zhàn)。首先,大數(shù)據(jù)集通常雜亂無章,數(shù)據(jù)搜集隨意性大,很多事實與數(shù)據(jù)混雜在一起,錯漏百出;而且它們大多不是出于科學(xué)研究的目的,只能設(shè)法反推出產(chǎn)生這些數(shù)據(jù)的工程師的想法。其次,大數(shù)據(jù)進行的多為無假設(shè)研究,只能從數(shù)據(jù)中發(fā)現(xiàn)相關(guān)性,無法按照因果關(guān)系加以解釋。其三,這些數(shù)據(jù)不像傳統(tǒng)科學(xué)那樣主要源于科學(xué)實驗中的數(shù)據(jù)記錄,而有很多是由企業(yè)和政府掌握的個人數(shù)據(jù),對它們的使用涉及隱私權(quán)和保密權(quán),要受到倫理和法律的制約。(參見艾登和米歇爾,第17-18頁)
反過來看,這些挑戰(zhàn)也意味著巨大的機遇。盡管這些數(shù)據(jù)集十分雜亂,但其中所記錄的大量關(guān)于人類狀態(tài)、行為、情感和態(tài)度等的數(shù)據(jù),這些“自我知識”比傳統(tǒng)的調(diào)查統(tǒng)計方法的成本更低、結(jié)果更為真實。更重要的是,這些數(shù)據(jù)比傳統(tǒng)數(shù)據(jù)保留了更多的維度,即更多的參數(shù)及復(fù)雜的相互關(guān)系。由于數(shù)據(jù)處理能力有限,傳統(tǒng)的數(shù)據(jù)主要搜集與待解決問題相關(guān)的數(shù)據(jù),并且這些數(shù)據(jù)一般選取或保留很少的幾個維度,看似不相關(guān)的維度則被省去;因此,傳統(tǒng)數(shù)據(jù)的使用,通常是先有假說或結(jié)論,然后用數(shù)據(jù)加以檢驗。而隨著大數(shù)據(jù)與云計算技術(shù)的發(fā)展,大量關(guān)系復(fù)雜甚或表面上沒什么價值的數(shù)據(jù)因此能夠得到存取和處理,這使數(shù)據(jù)的使用不再局限于驗證已有的假設(shè)或結(jié)論,而且還能不加預(yù)設(shè)地對這些數(shù)據(jù)進行分析,發(fā)現(xiàn)數(shù)據(jù)間可能存在的內(nèi)在關(guān)系和未曾發(fā)現(xiàn)的規(guī)律。
在這兩個方面的認(rèn)識的基礎(chǔ)上,可以開始探討作為大數(shù)據(jù)知識發(fā)現(xiàn)的研究對象的大數(shù)據(jù)集的本質(zhì)或者說其本體論預(yù)設(shè)究竟是什么。對這一問題的探尋,可以從工程師對大數(shù)據(jù)集的關(guān)鍵特征的界定切入。論及大數(shù)據(jù)的重要性,自然語言處理與搜索專家吳軍指出,成為大數(shù)據(jù)知識發(fā)現(xiàn)的對象的大數(shù)據(jù)集不僅在于其數(shù)量巨大,更在于其多維度與完備性。他以百度發(fā)布的“中國十大‘吃貨’省市排行榜”為例指出,百度并未直接調(diào)查各地飲食習(xí)慣,這一結(jié)果只是從“百度知道”的7700萬條與吃有關(guān)的問題與回答里挖掘出的結(jié)論。這些數(shù)據(jù)不但量大,而且維度非常多,涉及食物及其做法、吃法、成分、營養(yǎng)價值、問題來源、地域、時間等方方面面,這些看似雜亂無章的海量數(shù)據(jù)將時間、地域、食品及其做法與成分等本來看似無關(guān)的維度聯(lián)系了起來,對其加以挖掘就可能得出一些有意義的統(tǒng)計相關(guān)規(guī)律,如不同地域的飲食習(xí)慣、不同生活習(xí)慣的人的飲食習(xí)慣等。在總結(jié)多維度這一優(yōu)勢時,他在多維度后面用括號的方式指出,或叫全方位。(參見吳軍,第287頁)
毋庸置疑,全方位與完備性披露了工程話語中大數(shù)據(jù)一詞在隱喻意義上的內(nèi)涵:一方面用全方位與完備性界定大數(shù)據(jù)集在工程可行性或有限理性的層面是可以接受的,另一方面它們也對大數(shù)據(jù)集的理想特征做出了界定,而后者恰好為追問其本體論預(yù)設(shè)提供了線索。不難看到,基于百度問答的大數(shù)據(jù)充其量只是其數(shù)據(jù)記錄,具有某種原始性。所謂原始性就是說它不是為某個特定目的搜集起來的,提問與回答的多維度使其關(guān)涉到各個方面,數(shù)量足夠大與維度足夠多的理想化的情況下可稱之為全方位,甚至認(rèn)為其具有完備性;而不論是全方位還是完備性,都受制于原始性及其與境。因此,當(dāng)我們以全方位和完備性等隱喻描述大數(shù)據(jù)集時,要使原始性同全方位與完備性能夠相互契合,就必須在本體論上預(yù)設(shè)大數(shù)據(jù)集是等同于世界中的存在及其歷時性過程的數(shù)據(jù)化表象的。我們當(dāng)然可以假定,大數(shù)據(jù)集是對真實世界過程的表征與映射,或者將大數(shù)據(jù)集所刻畫的世界視為與真實世界相對應(yīng)的平行世界。但如果更深入地考慮,大數(shù)據(jù)集的獲得與呈現(xiàn)從一開始就不是一種理論抽象而是一種可行性的實踐,還應(yīng)該進一步使得這一本體論預(yù)設(shè)成為可落實的。
基于這一考量,可以將作為世界的數(shù)據(jù)化表象的大數(shù)據(jù)集視為一種介于真實的世界現(xiàn)象與基于數(shù)據(jù)的知識發(fā)現(xiàn)之間的媒介性的存在。一種可行的解決方案是賦予表象以雙重意涵——既是知識表征(representation)意義上的表象,又是與世界交織在一起并作為其樣貌(appearance)意義上的表象,而且這兩方面如同硬幣的兩面是不可分的。鑒于表象的雙重意涵,大數(shù)據(jù)集被賦予“全體事實”的內(nèi)涵,基于大數(shù)據(jù)的知識發(fā)現(xiàn)則成為“世間的全部知識”;而從操作實踐來看,兩者要受到與境和局域性的限制。由此,我們可以獲得一條基于“現(xiàn)象—表征—樣貌—知識”的大數(shù)據(jù)知識發(fā)現(xiàn)的路線圖。具體而言,一方面,表征意義上的表象即對世界現(xiàn)象的直接表示,理想的大數(shù)據(jù)集因而可在具體與境中視其為“全體事實”;另一方面,樣貌意義上的表象則將“全體事實”以可計算數(shù)據(jù)的形式呈現(xiàn)為大數(shù)據(jù)分析的對象,局域性的“世間的全部知識”由此得以呈現(xiàn)。
由于賦予了表象以樣貌這一新的維度,大數(shù)據(jù)集的本體論預(yù)設(shè)得以在物理與數(shù)據(jù)合一的“身體層”落實為可操作性的配置。所謂樣貌,其隱喻是賦予世界以“數(shù)據(jù)外貌”,恰如外貌與身體不可分一樣,理想的世界的數(shù)據(jù)化表象建立在物理世界與數(shù)據(jù)世界緊密交織的基礎(chǔ)上。一方面從物理世界輸入大量可表征信息,另一方面又以可計算與可視化的樣貌輸出這些信息,使之通過人機交互合作析出新的知識。一種理想的狀態(tài)是,借助無所不在的傳感機制,使真實世界與網(wǎng)絡(luò)化數(shù)據(jù)世界的界限模糊化,其未來的進路是實現(xiàn)基于普適計算的萬物互聯(lián)(internet of things)與意義互聯(lián)(internet of signs)。在萬物互聯(lián)中,人與物的數(shù)據(jù)的產(chǎn)生都是自動的,從而可以對人的行為偏好于物的運動傾向形成較為客觀的數(shù)據(jù)化表象,然后通過意義互聯(lián)在具體的與境和局域中獲得理解。
而更重要的是大數(shù)據(jù)集的本體論配置的“心智層”(noosphere),或者說基于云計算與大數(shù)據(jù)的發(fā)展,我們正在大氣層(atomosphere)和生物圈(biophere)之上完成心智層——世界上所有的可由數(shù)據(jù)溝通的信息、知識、心智和思想。在心智層,最為重要的本體論配置原則是可尋性(findability),它主要包括定位清晰和導(dǎo)航清晰兩個方面,從早期雅虎的瀏覽器的分類目錄到谷歌搜索的網(wǎng)頁排名,再到電商網(wǎng)站的推薦系統(tǒng),都是在可尋性上做文章。在技術(shù)上,心智層的本體論配置是對知識本體等元數(shù)據(jù)管理的繼承與發(fā)展。經(jīng)典的知識本體一般由基于元數(shù)據(jù)(metadata)的分類和一組推理規(guī)則構(gòu)成,若再加上知識模式(schema)和受控詞匯(controlled),可以進一步展開語義學(xué)層面的探究,即可在設(shè)定A是什么的基礎(chǔ)上,談?wù)?ldquo;事情意味著什么?”但實際運作往往不盡如人意。眾所周知,維特根斯坦早就指出,本體論所受到的挑戰(zhàn),不只在于語義層面,更在于潛藏的“根據(jù)規(guī)則定義”分類的邏輯的非完備性。這使得大眾分類法特別是具有非一一對應(yīng)性的標(biāo)簽在社交媒介中得到廣泛使用。如果說前者設(shè)定的本體是知識樹的話,后者設(shè)定的本體則如同一堆樹葉。對此,可根據(jù)描述全面性與辨識的明晰性等等原則選擇相對合適的方案。
三、作為非在的實存的大數(shù)據(jù)及其超越
以世界的數(shù)據(jù)化表象作為大數(shù)據(jù)的本體論預(yù)設(shè)并不完備,至少應(yīng)該在兩個方面得到澄清。其一,如何在本體論上接受基于大數(shù)據(jù)的知識發(fā)現(xiàn)關(guān)注“知道怎么樣”而不問“知道為什么”;其二,對人的行為傾向的研究不能簡單地將人等同于一種被動的表征對象,特別是當(dāng)這種知識發(fā)現(xiàn)給人貼上特定的標(biāo)簽時,有可能威脅到人的自由意志與尊嚴(yán)。為了克服這類問題,應(yīng)該用什么樣的本體論圖景刻畫其中涉及的人和關(guān)于人的大數(shù)據(jù)?
第一個問題可簡化為:為何大數(shù)據(jù)知識發(fā)現(xiàn)滿足于對相關(guān)性知識的發(fā)現(xiàn)?究其原因,傳統(tǒng)的科學(xué)研究是通過實驗獲得指定對象的經(jīng)驗數(shù)據(jù),然后通過改變經(jīng)驗數(shù)據(jù)探尋這些經(jīng)驗數(shù)據(jù)背后的因果機理以拯救現(xiàn)象;而大數(shù)據(jù)研究則只是對數(shù)據(jù)表象本身進行相似性、相關(guān)性等分析,通過特定的算法和機器學(xué)習(xí)等手段去猜測數(shù)據(jù)之間的相關(guān)性以拯救表象。例如,在醫(yī)學(xué)上,很多疾病與基因相關(guān),但基因作用的機制十分復(fù)雜,即便人們發(fā)現(xiàn)一個基因缺陷可能導(dǎo)致某種疾病,也只是具有可能性。一般的科學(xué)研究方法是,先通過實驗搞清某一段基因的機理,以及其缺陷可能帶來的生理變化,再研究這種變化會不會導(dǎo)致或誘發(fā)某種疾病。即便得出像“如果某個基因片段有缺陷,會導(dǎo)致糖尿病”的判斷,也只是可能性。實際上,因果關(guān)系的發(fā)現(xiàn)十分困難,科學(xué)家研究多年至今也還未在嚴(yán)格意義上確認(rèn)吸煙與一些疾病之間的關(guān)系。另一種方法是基于數(shù)據(jù)的統(tǒng)計方法,主要是研究基因缺陷與疾病在統(tǒng)計上的相關(guān)性。由于條件概率很小,需要極大的數(shù)據(jù)才能開展相關(guān)性研究,大數(shù)據(jù)的出現(xiàn)為此提供了有利條件。
如何理解基于大數(shù)據(jù)的知識發(fā)現(xiàn)所揭示的相關(guān)性?這種相關(guān)性首先是數(shù)據(jù)間的相關(guān)性,或者說它是通過對大數(shù)據(jù)樣貌的揣測而形成的。從前述“現(xiàn)象—表征—樣貌—知識”這一大數(shù)據(jù)知識發(fā)現(xiàn)的路線圖來看,這種數(shù)據(jù)間的相關(guān)性在本體論上具有雙重地位。一方面,在“現(xiàn)象—表征”層面,大數(shù)據(jù)知識發(fā)現(xiàn)中尋找到的樣貌層面的數(shù)據(jù)間的相關(guān)性無法從現(xiàn)象層面獲得充分的證據(jù),因而無法證明這種相關(guān)性必然存在,盡管這種相關(guān)性可以作為現(xiàn)象層面探討導(dǎo)致這種相關(guān)性的可能機理的線索,這種相關(guān)性只能被視為一種并不必然存在的非在。另一方面,在“樣貌—知識”層面,數(shù)據(jù)間的相關(guān)性可以看成是雖然抽象但確實存在的實存,并且這種實存可以反過來影響對現(xiàn)象的進一步探究的可能方向。由此,我們可以將基于大數(shù)據(jù)知識發(fā)現(xiàn)的數(shù)據(jù)間的相關(guān)性視為某種非在的實存。
在此,借用了巴迪歐(A.Badiou)的非在和實存的概念。他提出這一概念的本意是指,像無產(chǎn)階級之類在某些結(jié)構(gòu)中無法表象出來的非在,有可能由于大革命之類的突發(fā)事件徹底撕裂了舊有的超驗結(jié)構(gòu),使得原來的非在表象為實存。透過前文對數(shù)據(jù)間的相關(guān)性的討論可以看到,它作為一種非在的實存實際上是一種逆喻(oxymoron)。當(dāng)然,在“樣貌—知識”層面的實存與“現(xiàn)象—表象”層面的非在可能會遇到“這是將樣貌與表象加以區(qū)分的結(jié)果”之類的質(zhì)疑。但是,一方面,在大數(shù)據(jù)知識發(fā)現(xiàn)中,基于大數(shù)據(jù)的知識發(fā)現(xiàn)的“樣貌—知識”過程與獲得數(shù)據(jù)的“現(xiàn)象—表征”過程的確是不同步的;另一方面,由大數(shù)據(jù)知識發(fā)現(xiàn)揭示出的數(shù)據(jù)相關(guān)性反推的現(xiàn)象與獲得數(shù)據(jù)過程中的現(xiàn)象也不完全同一。因此,如果說人們試圖通過大數(shù)據(jù)知識發(fā)現(xiàn)獲得的數(shù)據(jù)間的相關(guān)性去對現(xiàn)象進行本體揣測的話,實際上這同時也是一個本體自我隱匿的過程。一般地,一旦我們對存在進行揣測,它要么隱藏起來,要么將我們引向?qū)Ρ倔w一神的揣測,讓我們想象在現(xiàn)象背后還很有可能隱藏著一個掌握了存在奧秘的主體。如果透過大數(shù)據(jù)的知識發(fā)現(xiàn)這一媒介揣測現(xiàn)象背后的存在,需要思考雙重的本體差異,而導(dǎo)致此本體論差異的關(guān)鍵則在于,我們在本體論揣測時借用了知識發(fā)現(xiàn)的表征架構(gòu)。
為了擺脫這種本體自我隱匿的命運,必須超越以表征架構(gòu)反過來表象存在的偽形而上學(xué)進路,而這也是克服第二個問題的關(guān)鍵所在。概言之,可以采取的進路有三。其一為多元主義與視角主義,其基本思路是將所有具體的知識發(fā)現(xiàn)都同時視為某種本體上的鎖閉,對大數(shù)據(jù)知識發(fā)現(xiàn)來說,就是視其為“有數(shù)據(jù)的無知”——“對A還可以這么看”,由此將知識發(fā)現(xiàn)的實踐變成一種知識的多元糾錯機制,以此實現(xiàn)對存在的遮蔽與本體隱匿的救贖。其二,鑒于大數(shù)據(jù)知識發(fā)現(xiàn)的研究對象是一種非在的實存,這種研究實際上類似于詮釋學(xué)的研究。在此過程中涉及的數(shù)據(jù)實際上類似于文本,對其本體的追問具有詮釋學(xué)的特點,其中必然涉及以下方面:(1)對數(shù)據(jù)的詮釋是一種跨學(xué)科解讀;(2)對數(shù)據(jù)的詮釋與意義相關(guān);(3)對數(shù)據(jù)的詮釋是一種與文本互動的實踐;(4)對數(shù)據(jù)的詮釋應(yīng)該考慮文本的歷史語境;(5)對數(shù)據(jù)的詮釋帶有讀者的偏見與立場;(6)共同體的共識在詮釋框架的形成和固化過程中具有重要影響;(7)對數(shù)據(jù)的詮釋一般會排除唯一客觀意義的可能。其三,運用巴拉德(K.Bard)的能動者實在論(agential realism),將大數(shù)據(jù)對人的行為和社會活動的研究視為一種能動的認(rèn)識過程,即人的自我調(diào)節(jié)過程。基于大數(shù)據(jù)的人的行為與社會知識的發(fā)現(xiàn)應(yīng)該視為復(fù)雜系統(tǒng)的自適應(yīng)與自反饋過程,在此過程中,人與其被研究的行為大數(shù)據(jù)構(gòu)成了一種相互作用的機制,由此有望通過自我認(rèn)識而尋求新的變化與動態(tài)均衡。