亚洲综合网在线观看首页,国产精品欧美亚洲日本综合 ,国产日韩欧美一区

大數(shù)據(jù)知識發(fā)現(xiàn)的本體論追問

責(zé)任編輯：editor006

作者：段偉文

2016-05-12 17:13:46

摘自：《哲學(xué)研究》201511期

基于這一考量，可以將作為世界的數(shù)據(jù)化表象的大數(shù)據(jù)集視為一種介于真實的世界現(xiàn)象與基于數(shù)據(jù)的知識發(fā)現(xiàn)之間的媒介性的存在。

本文系國家社會科學(xué)基金特別委托項目“大數(shù)據(jù)時代的哲學(xué)理論與社會發(fā)展”(編號14@ZH023)的階段性成果。

信息技術(shù)的發(fā)展使得科學(xué)研究與人類活動生產(chǎn)的數(shù)據(jù)呈指數(shù)級增長，一種新的透鏡——大數(shù)據(jù)——愈益主導(dǎo)著我們看世界的方式，這種方式不僅使科學(xué)進入數(shù)據(jù)密集型科學(xué)的新范式，而且為用數(shù)據(jù)認(rèn)識人類自身開啟了可能性空間。

基于大數(shù)據(jù)的知識發(fā)現(xiàn)為科學(xué)找到了新的起點——只要擁有足夠多的數(shù)據(jù)和足夠聰明的算法，就可能在認(rèn)識世界和理解我們自身方面獲得更深刻的洞見。但也要看到，讓“數(shù)據(jù)自己說話”是有其條件和與境的：一方面，所謂“原始數(shù)據(jù)”取決于獲取與處理數(shù)據(jù)的方式；另一方面，算法本身也是內(nèi)涵理論上的簡化與抽象。與庫薩的尼古拉對“有學(xué)識的無知”的思辨相類似，我們應(yīng)該反思可能面對的“有數(shù)據(jù)的無知”——基于大數(shù)據(jù)的知識發(fā)現(xiàn)固然開啟了一種認(rèn)識世界的新視角，仍不可避免地有其局限性與邊界。而這一反思的前提則是對大數(shù)據(jù)知識發(fā)現(xiàn)的研究對象——大數(shù)據(jù)的本體論預(yù)設(shè)及其配置(configuration)展開追問和反思。

一、基于大數(shù)據(jù)的知識發(fā)現(xiàn)的興起

隨著計算與網(wǎng)絡(luò)通信技術(shù)、觀測與傳感儀器以及數(shù)字存儲的發(fā)展，很多學(xué)科從數(shù)據(jù)貧乏轉(zhuǎn)變?yōu)閿?shù)據(jù)富集的研究領(lǐng)域，生物學(xué)、物理學(xué)、認(rèn)知科學(xué)、工程技術(shù)乃至社會科學(xué)領(lǐng)域的新發(fā)現(xiàn)越來越多地基于數(shù)據(jù)驅(qū)動，日益取決于我們對數(shù)據(jù)的獲取、共享、整合、分析以及構(gòu)建預(yù)測模型的能力。其中，起關(guān)鍵作用的現(xiàn)代數(shù)據(jù)分析技術(shù)將精細的概率模型、統(tǒng)計推理、數(shù)據(jù)挖掘與機器學(xué)習(xí)相結(jié)合，形成了從人類獲取與產(chǎn)生的各種數(shù)據(jù)中提取知識的有力途徑。由此，生物學(xué)家可應(yīng)用數(shù)據(jù)分析洞察生命信息及其獲取、編碼、處理與傳遞，神經(jīng)科學(xué)家得以揭示認(rèn)知的奧秘，醫(yī)生不僅可以對疾病進行診療還能幫助個人做出健康方面的選擇，社會科學(xué)家可以探究社會網(wǎng)絡(luò)的演化與動力，甚至人文學(xué)者也因而對文學(xué)、藝術(shù)、歷史與文化獲得新的理解。

基于數(shù)據(jù)的知識發(fā)現(xiàn)帶來了數(shù)據(jù)密集型(data-intensive)科學(xué)與網(wǎng)絡(luò)化科學(xué)的新發(fā)展。在天文、物理與生物等“大科學(xué)”研究中，各種數(shù)據(jù)呈現(xiàn)出指數(shù)增長的趨勢，數(shù)據(jù)不僅因此成為這些領(lǐng)域最為重要的研究資源，還催生出天體信息學(xué)、計算生物學(xué)、生態(tài)信息學(xué)、計算社會學(xué)等全新的進路與學(xué)科。格雷(J.Gray)等將此新的研究范式稱為“第四范式”：“新的研究模式是通過儀器收集數(shù)據(jù)或通過模擬方法產(chǎn)生數(shù)據(jù)，然后用軟件進行處理，再將形成的信息和知識存儲于計算機中。科學(xué)家們只是在這個工作流中相當(dāng)靠后的步驟才開始審視他們的數(shù)據(jù)。用于這種數(shù)據(jù)密集型科學(xué)的技術(shù)和方法是如此迥然不同，所以，從計算科學(xué)中把數(shù)據(jù)密集型科學(xué)區(qū)分出來作為一個新的、科學(xué)探索的第四種范式頗有價值。”(Hey等，第XI頁)在此范式下，數(shù)據(jù)成為研究的主要對象和科學(xué)發(fā)現(xiàn)的主要資源，很多學(xué)科正在演變出X-Info和Comp-X兩個新的分支，如生態(tài)學(xué)既出現(xiàn)了與模擬生態(tài)學(xué)相關(guān)的計算生態(tài)學(xué)，也在形成與搜集和分析生態(tài)信息本身相關(guān)的生態(tài)信息學(xué)。(同上)

與此同時，網(wǎng)絡(luò)化科學(xué)日益成為各個科學(xué)領(lǐng)域廣泛使用的科學(xué)發(fā)現(xiàn)模式，許多領(lǐng)域正在利用在線協(xié)作的方式構(gòu)建龐大的數(shù)據(jù)庫，以繪出宇宙的結(jié)構(gòu)、全球氣候的結(jié)構(gòu)、全球海洋的結(jié)構(gòu)、人類語言的結(jié)構(gòu)甚至所有物種的基因的結(jié)構(gòu)，成百數(shù)千的科學(xué)家甚至科學(xué)愛好者將他們的工作集成起來，進而繪制出“整個世界”的圖譜。有了這些聚合起來的圖譜，任何研究者都可以利用計算機從中挖掘出事物之間不曾被發(fā)現(xiàn)的聯(lián)系。(尼爾森，第6頁)網(wǎng)絡(luò)化科學(xué)至少帶來了三個方面的改變。首先是強調(diào)在新知識發(fā)現(xiàn)中的協(xié)同創(chuàng)造，如菲爾茲獎得主、劍橋的數(shù)學(xué)家高爾斯(T.Gowers)挑選了一道意義重大的數(shù)學(xué)難題發(fā)布在博客上，邀請眾人解答，結(jié)果經(jīng)過短短的37天，不僅這個問題得到了解決，還解決了一個更難的問題。其次是數(shù)據(jù)開放共享成為形成知識洞見的前提，以基因銀行為例，從事人類基因組研究的科學(xué)家每次都會將新的遺傳數(shù)據(jù)上傳到基因銀行這一在線遺傳信息數(shù)據(jù)庫中，基因銀行對所有的遺傳信息加以整合，使之成為公開和可自由存取的在線數(shù)據(jù)，任何人都可以運用這些數(shù)據(jù)開展研究。其三是科學(xué)與社會之間的關(guān)系的轉(zhuǎn)換，如“星系動物園”網(wǎng)站招募了超過20萬網(wǎng)絡(luò)志愿者幫助天文學(xué)家對星系照片進行分類，已完成對數(shù)以億計的星系的分類。

在社會層面，計算機網(wǎng)絡(luò)、移動通信技術(shù)、物聯(lián)網(wǎng)以及各種數(shù)據(jù)搜集與信息監(jiān)控系統(tǒng)產(chǎn)生了海量的實時數(shù)據(jù)，各種社交網(wǎng)絡(luò)、數(shù)據(jù)終端與可穿戴設(shè)備使得個人數(shù)據(jù)得到全天候的搜集，進而形成實時的個人數(shù)據(jù)足跡。這使得政府與企業(yè)可以運用相關(guān)性分析等數(shù)據(jù)挖掘，從海量的數(shù)據(jù)洪流中挖掘出有價值的信息模式。由此，這些社會與個人行為數(shù)據(jù)不再僅僅是記錄、檔案或聲像資料，而成為社會與個人感知與決策的資源。尤其是基于互聯(lián)網(wǎng)的人類行為的數(shù)據(jù)挖掘和社會感知測量技術(shù)的出現(xiàn)，使得數(shù)據(jù)驅(qū)動的知識成為認(rèn)識人和社會的全新的知識來源，商業(yè)智能與計算社會科學(xué)等及其在經(jīng)濟、管理和社會治理等層面的日益呈現(xiàn)出廣闊前景。

數(shù)據(jù)密集型科學(xué)、網(wǎng)絡(luò)化科學(xué)、商業(yè)智能與計算社會學(xué)的發(fā)展使得人們對計算和數(shù)據(jù)有了更加全面深入的理解，大數(shù)據(jù)這一時代性概念隨之浮出水面。人們一般用數(shù)量(Volume)、速度(Velocity)、多樣性(Variety)、精確性(Veracity)和價值(Value)等品質(zhì)來界定大數(shù)據(jù)，但這些品質(zhì)實質(zhì)上是相對的，而且，我們很難也不必對大數(shù)據(jù)做出某種絕對的界定。因此，在這些抽象的品質(zhì)之外，基欽(R.Kitchin)進一步強調(diào)大數(shù)據(jù)具有的其他重要性質(zhì)：(1)詳盡無遺，即窮盡了研究范圍內(nèi)的數(shù)據(jù)；(2)精細的解決方案和獨到的區(qū)分索引；(3)關(guān)聯(lián)性，即存在可將不同領(lǐng)域聯(lián)系起來的共同領(lǐng)域；(4)彈性，包括延伸性與可擴展性。(Kitchin，p.2)波義德(D.Boyd)與克勞福德(K.Crawford)則強調(diào)，大數(shù)據(jù)不僅意味著非常大的數(shù)據(jù)集合以及用于操控和分析數(shù)據(jù)的工具與程序，而且在于思想和研究上的計算轉(zhuǎn)向(computational turn)。正是基于這一轉(zhuǎn)向，大數(shù)據(jù)對人們的知識構(gòu)建、研究過程、與信息相處的方式以及實在的本性與范疇展開了重構(gòu)，設(shè)定了新的關(guān)注對象、認(rèn)知方法，甚至對社會生活也做了新的界定。(cf.Boyd &Crawford，p.665)對此，安德森(C.Anderson)的觀點最為激進。在他看來，數(shù)據(jù)的洪流使得傳統(tǒng)科學(xué)方法落敗，大數(shù)據(jù)自身蘊含的模式與關(guān)系就可以對復(fù)雜的現(xiàn)象產(chǎn)生知識洞見。他認(rèn)為，海量的數(shù)據(jù)讓我們可以聲稱，相關(guān)性足矣，無需科學(xué)假說，而只要將數(shù)據(jù)輸入到計算陣列中即可用統(tǒng)計算法尋找傳統(tǒng)科學(xué)無法發(fā)現(xiàn)的模式；而且，鑒于相關(guān)性超越了因果性，在沒有自洽的模型、統(tǒng)一的理論甚至完全沒有機制說明的情況下，科學(xué)依然可以向前發(fā)展。在他看來，人們?yōu)楹我鍪裁床恢匾匾氖撬麄冏隽耍⑶椅覀兛梢郧八从械卣鎸嵉卣归_追蹤和測量；一旦擁有足夠的數(shù)據(jù)，數(shù)字自己會說話。(cf.Anderson，p.23)

透過大數(shù)據(jù)支持者的觀點不難看到，大數(shù)據(jù)揭示了一種新的知識發(fā)現(xiàn)進路，即大數(shù)據(jù)處理與分析技術(shù)的出現(xiàn)，使我們可處理以往難以處理的數(shù)量巨大、變化迅速、形式復(fù)雜的數(shù)據(jù)，從中找到高度精準(zhǔn)和有價值的信息模式與知識。對此，信息哲學(xué)家弗洛里迪(L.Floridi)指出，大數(shù)據(jù)的真正問題并不在于數(shù)據(jù)之“大”，而在于如何從海量的數(shù)據(jù)中挖掘出其背后具有規(guī)律性的“小模式”。(cf.Floridi，p.436)從搜索引擎到電商巨頭，從生物信息學(xué)到神經(jīng)科學(xué)，關(guān)鍵在于精準(zhǔn)地發(fā)現(xiàn)有意義的小模式。但這種小模式的發(fā)現(xiàn)并非易事。一個經(jīng)典的案例是“谷歌流感趨勢”(GFT)，這一項目試圖根據(jù)人們在谷歌上對相關(guān)信息的搜索數(shù)據(jù)對流感信息做出預(yù)測，它一度大獲成功，其結(jié)果比美國疾病防控中心預(yù)報更為及時準(zhǔn)確，對流感的爆發(fā)乃至新一輪流感的出現(xiàn)能做出準(zhǔn)確及時的反應(yīng)。但不久GFT出現(xiàn)了夸大流感趨勢等失準(zhǔn)的情況。究其原因，一方面是其所依據(jù)的數(shù)據(jù)本身并不是專門針對其研究目的測度出的具有可重復(fù)性和相互關(guān)聯(lián)的準(zhǔn)確數(shù)據(jù)；另一方面是對算法變化的不適應(yīng)，即谷歌在搜索算法的改進上帶來了新的不確定性，例如為了提升搜索服務(wù)的質(zhì)量或商業(yè)上的需要，搜索引擎會對使用者的進一步搜索做出推薦或廣告推介，這些變化難免影響到GFT的數(shù)據(jù)采集。

由此可見，在基于大數(shù)據(jù)的知識發(fā)現(xiàn)中，數(shù)據(jù)是作為一種資源來開發(fā)的，數(shù)據(jù)本身多為已大量累積或不斷動態(tài)產(chǎn)生的，而且其形成可能與新的知識發(fā)現(xiàn)的目的并無必然的關(guān)系；而在傳統(tǒng)的科學(xué)研究中，數(shù)據(jù)一般是有目的(特別是檢驗理論)的研究觀測的結(jié)果，為了獲取數(shù)據(jù)往往需要設(shè)計專門的實驗?zāi)酥翆ｉT的觀測與記錄數(shù)據(jù)的工具。正是在此意義上，基于大數(shù)據(jù)的知識發(fā)現(xiàn)通常稱為數(shù)據(jù)挖掘。從挖掘這一隱喻來看，作為挖掘?qū)ο蟮?ldquo;礦”的產(chǎn)生與挖掘是兩個相對獨立的過程，大數(shù)據(jù)與以往的數(shù)據(jù)最大的不同是，它超越了資料層面而成為一種具有開發(fā)價值的“礦”。而大數(shù)據(jù)這種“礦”究竟意味著什么，或者說基于大數(shù)據(jù)的知識發(fā)現(xiàn)的對象的本質(zhì)是什么，就是本文所要展開的本體論追問。

二、世界的數(shù)據(jù)化表象及其“數(shù)據(jù)外貌”

大數(shù)據(jù)知識發(fā)現(xiàn)的研究對象主要是各種數(shù)據(jù)來源累積與動態(tài)生成的大數(shù)據(jù)集，它們給知識發(fā)現(xiàn)帶來了不少挑戰(zhàn)。首先，大數(shù)據(jù)集通常雜亂無章，數(shù)據(jù)搜集隨意性大，很多事實與數(shù)據(jù)混雜在一起，錯漏百出；而且它們大多不是出于科學(xué)研究的目的，只能設(shè)法反推出產(chǎn)生這些數(shù)據(jù)的工程師的想法。其次，大數(shù)據(jù)進行的多為無假設(shè)研究，只能從數(shù)據(jù)中發(fā)現(xiàn)相關(guān)性，無法按照因果關(guān)系加以解釋。其三，這些數(shù)據(jù)不像傳統(tǒng)科學(xué)那樣主要源于科學(xué)實驗中的數(shù)據(jù)記錄，而有很多是由企業(yè)和政府掌握的個人數(shù)據(jù)，對它們的使用涉及隱私權(quán)和保密權(quán)，要受到倫理和法律的制約。(參見艾登和米歇爾，第17-18頁)

反過來看，這些挑戰(zhàn)也意味著巨大的機遇。盡管這些數(shù)據(jù)集十分雜亂，但其中所記錄的大量關(guān)于人類狀態(tài)、行為、情感和態(tài)度等的數(shù)據(jù)，這些“自我知識”比傳統(tǒng)的調(diào)查統(tǒng)計方法的成本更低、結(jié)果更為真實。更重要的是，這些數(shù)據(jù)比傳統(tǒng)數(shù)據(jù)保留了更多的維度，即更多的參數(shù)及復(fù)雜的相互關(guān)系。由于數(shù)據(jù)處理能力有限，傳統(tǒng)的數(shù)據(jù)主要搜集與待解決問題相關(guān)的數(shù)據(jù)，并且這些數(shù)據(jù)一般選取或保留很少的幾個維度，看似不相關(guān)的維度則被省去；因此，傳統(tǒng)數(shù)據(jù)的使用，通常是先有假說或結(jié)論，然后用數(shù)據(jù)加以檢驗。而隨著大數(shù)據(jù)與云計算技術(shù)的發(fā)展，大量關(guān)系復(fù)雜甚或表面上沒什么價值的數(shù)據(jù)因此能夠得到存取和處理，這使數(shù)據(jù)的使用不再局限于驗證已有的假設(shè)或結(jié)論，而且還能不加預(yù)設(shè)地對這些數(shù)據(jù)進行分析，發(fā)現(xiàn)數(shù)據(jù)間可能存在的內(nèi)在關(guān)系和未曾發(fā)現(xiàn)的規(guī)律。

在這兩個方面的認(rèn)識的基礎(chǔ)上，可以開始探討作為大數(shù)據(jù)知識發(fā)現(xiàn)的研究對象的大數(shù)據(jù)集的本質(zhì)或者說其本體論預(yù)設(shè)究竟是什么。對這一問題的探尋，可以從工程師對大數(shù)據(jù)集的關(guān)鍵特征的界定切入。論及大數(shù)據(jù)的重要性，自然語言處理與搜索專家吳軍指出，成為大數(shù)據(jù)知識發(fā)現(xiàn)的對象的大數(shù)據(jù)集不僅在于其數(shù)量巨大，更在于其多維度與完備性。他以百度發(fā)布的“中國十大‘吃貨’省市排行榜”為例指出，百度并未直接調(diào)查各地飲食習(xí)慣，這一結(jié)果只是從“百度知道”的7700萬條與吃有關(guān)的問題與回答里挖掘出的結(jié)論。這些數(shù)據(jù)不但量大，而且維度非常多，涉及食物及其做法、吃法、成分、營養(yǎng)價值、問題來源、地域、時間等方方面面，這些看似雜亂無章的海量數(shù)據(jù)將時間、地域、食品及其做法與成分等本來看似無關(guān)的維度聯(lián)系了起來，對其加以挖掘就可能得出一些有意義的統(tǒng)計相關(guān)規(guī)律，如不同地域的飲食習(xí)慣、不同生活習(xí)慣的人的飲食習(xí)慣等。在總結(jié)多維度這一優(yōu)勢時，他在多維度后面用括號的方式指出，或叫全方位。(參見吳軍，第287頁)

毋庸置疑，全方位與完備性披露了工程話語中大數(shù)據(jù)一詞在隱喻意義上的內(nèi)涵：一方面用全方位與完備性界定大數(shù)據(jù)集在工程可行性或有限理性的層面是可以接受的，另一方面它們也對大數(shù)據(jù)集的理想特征做出了界定，而后者恰好為追問其本體論預(yù)設(shè)提供了線索。不難看到，基于百度問答的大數(shù)據(jù)充其量只是其數(shù)據(jù)記錄，具有某種原始性。所謂原始性就是說它不是為某個特定目的搜集起來的，提問與回答的多維度使其關(guān)涉到各個方面，數(shù)量足夠大與維度足夠多的理想化的情況下可稱之為全方位，甚至認(rèn)為其具有完備性；而不論是全方位還是完備性，都受制于原始性及其與境。因此，當(dāng)我們以全方位和完備性等隱喻描述大數(shù)據(jù)集時，要使原始性同全方位與完備性能夠相互契合，就必須在本體論上預(yù)設(shè)大數(shù)據(jù)集是等同于世界中的存在及其歷時性過程的數(shù)據(jù)化表象的。我們當(dāng)然可以假定，大數(shù)據(jù)集是對真實世界過程的表征與映射，或者將大數(shù)據(jù)集所刻畫的世界視為與真實世界相對應(yīng)的平行世界。但如果更深入地考慮，大數(shù)據(jù)集的獲得與呈現(xiàn)從一開始就不是一種理論抽象而是一種可行性的實踐，還應(yīng)該進一步使得這一本體論預(yù)設(shè)成為可落實的。

基于這一考量，可以將作為世界的數(shù)據(jù)化表象的大數(shù)據(jù)集視為一種介于真實的世界現(xiàn)象與基于數(shù)據(jù)的知識發(fā)現(xiàn)之間的媒介性的存在。一種可行的解決方案是賦予表象以雙重意涵——既是知識表征(representation)意義上的表象，又是與世界交織在一起并作為其樣貌(appearance)意義上的表象，而且這兩方面如同硬幣的兩面是不可分的。鑒于表象的雙重意涵，大數(shù)據(jù)集被賦予“全體事實”的內(nèi)涵，基于大數(shù)據(jù)的知識發(fā)現(xiàn)則成為“世間的全部知識”；而從操作實踐來看，兩者要受到與境和局域性的限制。由此，我們可以獲得一條基于“現(xiàn)象—表征—樣貌—知識”的大數(shù)據(jù)知識發(fā)現(xiàn)的路線圖。具體而言，一方面，表征意義上的表象即對世界現(xiàn)象的直接表示，理想的大數(shù)據(jù)集因而可在具體與境中視其為“全體事實”；另一方面，樣貌意義上的表象則將“全體事實”以可計算數(shù)據(jù)的形式呈現(xiàn)為大數(shù)據(jù)分析的對象，局域性的“世間的全部知識”由此得以呈現(xiàn)。

由于賦予了表象以樣貌這一新的維度，大數(shù)據(jù)集的本體論預(yù)設(shè)得以在物理與數(shù)據(jù)合一的“身體層”落實為可操作性的配置。所謂樣貌，其隱喻是賦予世界以“數(shù)據(jù)外貌”，恰如外貌與身體不可分一樣，理想的世界的數(shù)據(jù)化表象建立在物理世界與數(shù)據(jù)世界緊密交織的基礎(chǔ)上。一方面從物理世界輸入大量可表征信息，另一方面又以可計算與可視化的樣貌輸出這些信息，使之通過人機交互合作析出新的知識。一種理想的狀態(tài)是，借助無所不在的傳感機制，使真實世界與網(wǎng)絡(luò)化數(shù)據(jù)世界的界限模糊化，其未來的進路是實現(xiàn)基于普適計算的萬物互聯(lián)(internet of things)與意義互聯(lián)(internet of signs)。在萬物互聯(lián)中，人與物的數(shù)據(jù)的產(chǎn)生都是自動的，從而可以對人的行為偏好于物的運動傾向形成較為客觀的數(shù)據(jù)化表象，然后通過意義互聯(lián)在具體的與境和局域中獲得理解。

而更重要的是大數(shù)據(jù)集的本體論配置的“心智層”(noosphere)，或者說基于云計算與大數(shù)據(jù)的發(fā)展，我們正在大氣層(atomosphere)和生物圈(biophere)之上完成心智層——世界上所有的可由數(shù)據(jù)溝通的信息、知識、心智和思想。在心智層，最為重要的本體論配置原則是可尋性(findability)，它主要包括定位清晰和導(dǎo)航清晰兩個方面，從早期雅虎的瀏覽器的分類目錄到谷歌搜索的網(wǎng)頁排名，再到電商網(wǎng)站的推薦系統(tǒng)，都是在可尋性上做文章。在技術(shù)上，心智層的本體論配置是對知識本體等元數(shù)據(jù)管理的繼承與發(fā)展。經(jīng)典的知識本體一般由基于元數(shù)據(jù)(metadata)的分類和一組推理規(guī)則構(gòu)成，若再加上知識模式(schema)和受控詞匯(controlled)，可以進一步展開語義學(xué)層面的探究，即可在設(shè)定A是什么的基礎(chǔ)上，談?wù)?ldquo;事情意味著什么？”但實際運作往往不盡如人意。眾所周知，維特根斯坦早就指出，本體論所受到的挑戰(zhàn)，不只在于語義層面，更在于潛藏的“根據(jù)規(guī)則定義”分類的邏輯的非完備性。這使得大眾分類法特別是具有非一一對應(yīng)性的標(biāo)簽在社交媒介中得到廣泛使用。如果說前者設(shè)定的本體是知識樹的話，后者設(shè)定的本體則如同一堆樹葉。對此，可根據(jù)描述全面性與辨識的明晰性等等原則選擇相對合適的方案。

三、作為非在的實存的大數(shù)據(jù)及其超越

以世界的數(shù)據(jù)化表象作為大數(shù)據(jù)的本體論預(yù)設(shè)并不完備，至少應(yīng)該在兩個方面得到澄清。其一，如何在本體論上接受基于大數(shù)據(jù)的知識發(fā)現(xiàn)關(guān)注“知道怎么樣”而不問“知道為什么”；其二，對人的行為傾向的研究不能簡單地將人等同于一種被動的表征對象，特別是當(dāng)這種知識發(fā)現(xiàn)給人貼上特定的標(biāo)簽時，有可能威脅到人的自由意志與尊嚴(yán)。為了克服這類問題，應(yīng)該用什么樣的本體論圖景刻畫其中涉及的人和關(guān)于人的大數(shù)據(jù)？

第一個問題可簡化為：為何大數(shù)據(jù)知識發(fā)現(xiàn)滿足于對相關(guān)性知識的發(fā)現(xiàn)？究其原因，傳統(tǒng)的科學(xué)研究是通過實驗獲得指定對象的經(jīng)驗數(shù)據(jù)，然后通過改變經(jīng)驗數(shù)據(jù)探尋這些經(jīng)驗數(shù)據(jù)背后的因果機理以拯救現(xiàn)象；而大數(shù)據(jù)研究則只是對數(shù)據(jù)表象本身進行相似性、相關(guān)性等分析，通過特定的算法和機器學(xué)習(xí)等手段去猜測數(shù)據(jù)之間的相關(guān)性以拯救表象。例如，在醫(yī)學(xué)上，很多疾病與基因相關(guān)，但基因作用的機制十分復(fù)雜，即便人們發(fā)現(xiàn)一個基因缺陷可能導(dǎo)致某種疾病，也只是具有可能性。一般的科學(xué)研究方法是，先通過實驗搞清某一段基因的機理，以及其缺陷可能帶來的生理變化，再研究這種變化會不會導(dǎo)致或誘發(fā)某種疾病。即便得出像“如果某個基因片段有缺陷，會導(dǎo)致糖尿病”的判斷，也只是可能性。實際上，因果關(guān)系的發(fā)現(xiàn)十分困難，科學(xué)家研究多年至今也還未在嚴(yán)格意義上確認(rèn)吸煙與一些疾病之間的關(guān)系。另一種方法是基于數(shù)據(jù)的統(tǒng)計方法，主要是研究基因缺陷與疾病在統(tǒng)計上的相關(guān)性。由于條件概率很小，需要極大的數(shù)據(jù)才能開展相關(guān)性研究，大數(shù)據(jù)的出現(xiàn)為此提供了有利條件。

如何理解基于大數(shù)據(jù)的知識發(fā)現(xiàn)所揭示的相關(guān)性？這種相關(guān)性首先是數(shù)據(jù)間的相關(guān)性，或者說它是通過對大數(shù)據(jù)樣貌的揣測而形成的。從前述“現(xiàn)象—表征—樣貌—知識”這一大數(shù)據(jù)知識發(fā)現(xiàn)的路線圖來看，這種數(shù)據(jù)間的相關(guān)性在本體論上具有雙重地位。一方面，在“現(xiàn)象—表征”層面，大數(shù)據(jù)知識發(fā)現(xiàn)中尋找到的樣貌層面的數(shù)據(jù)間的相關(guān)性無法從現(xiàn)象層面獲得充分的證據(jù)，因而無法證明這種相關(guān)性必然存在，盡管這種相關(guān)性可以作為現(xiàn)象層面探討導(dǎo)致這種相關(guān)性的可能機理的線索，這種相關(guān)性只能被視為一種并不必然存在的非在。另一方面，在“樣貌—知識”層面，數(shù)據(jù)間的相關(guān)性可以看成是雖然抽象但確實存在的實存，并且這種實存可以反過來影響對現(xiàn)象的進一步探究的可能方向。由此，我們可以將基于大數(shù)據(jù)知識發(fā)現(xiàn)的數(shù)據(jù)間的相關(guān)性視為某種非在的實存。

在此，借用了巴迪歐(A.Badiou)的非在和實存的概念。他提出這一概念的本意是指，像無產(chǎn)階級之類在某些結(jié)構(gòu)中無法表象出來的非在，有可能由于大革命之類的突發(fā)事件徹底撕裂了舊有的超驗結(jié)構(gòu)，使得原來的非在表象為實存。透過前文對數(shù)據(jù)間的相關(guān)性的討論可以看到，它作為一種非在的實存實際上是一種逆喻(oxymoron)。當(dāng)然，在“樣貌—知識”層面的實存與“現(xiàn)象—表象”層面的非在可能會遇到“這是將樣貌與表象加以區(qū)分的結(jié)果”之類的質(zhì)疑。但是，一方面，在大數(shù)據(jù)知識發(fā)現(xiàn)中，基于大數(shù)據(jù)的知識發(fā)現(xiàn)的“樣貌—知識”過程與獲得數(shù)據(jù)的“現(xiàn)象—表征”過程的確是不同步的；另一方面，由大數(shù)據(jù)知識發(fā)現(xiàn)揭示出的數(shù)據(jù)相關(guān)性反推的現(xiàn)象與獲得數(shù)據(jù)過程中的現(xiàn)象也不完全同一。因此，如果說人們試圖通過大數(shù)據(jù)知識發(fā)現(xiàn)獲得的數(shù)據(jù)間的相關(guān)性去對現(xiàn)象進行本體揣測的話，實際上這同時也是一個本體自我隱匿的過程。一般地，一旦我們對存在進行揣測，它要么隱藏起來，要么將我們引向?qū)Ρ倔w一神的揣測，讓我們想象在現(xiàn)象背后還很有可能隱藏著一個掌握了存在奧秘的主體。如果透過大數(shù)據(jù)的知識發(fā)現(xiàn)這一媒介揣測現(xiàn)象背后的存在，需要思考雙重的本體差異，而導(dǎo)致此本體論差異的關(guān)鍵則在于，我們在本體論揣測時借用了知識發(fā)現(xiàn)的表征架構(gòu)。

為了擺脫這種本體自我隱匿的命運，必須超越以表征架構(gòu)反過來表象存在的偽形而上學(xué)進路，而這也是克服第二個問題的關(guān)鍵所在。概言之，可以采取的進路有三。其一為多元主義與視角主義，其基本思路是將所有具體的知識發(fā)現(xiàn)都同時視為某種本體上的鎖閉，對大數(shù)據(jù)知識發(fā)現(xiàn)來說，就是視其為“有數(shù)據(jù)的無知”——“對A還可以這么看”，由此將知識發(fā)現(xiàn)的實踐變成一種知識的多元糾錯機制，以此實現(xiàn)對存在的遮蔽與本體隱匿的救贖。其二，鑒于大數(shù)據(jù)知識發(fā)現(xiàn)的研究對象是一種非在的實存，這種研究實際上類似于詮釋學(xué)的研究。在此過程中涉及的數(shù)據(jù)實際上類似于文本，對其本體的追問具有詮釋學(xué)的特點，其中必然涉及以下方面：(1)對數(shù)據(jù)的詮釋是一種跨學(xué)科解讀；(2)對數(shù)據(jù)的詮釋與意義相關(guān)；(3)對數(shù)據(jù)的詮釋是一種與文本互動的實踐；(4)對數(shù)據(jù)的詮釋應(yīng)該考慮文本的歷史語境；(5)對數(shù)據(jù)的詮釋帶有讀者的偏見與立場；(6)共同體的共識在詮釋框架的形成和固化過程中具有重要影響；(7)對數(shù)據(jù)的詮釋一般會排除唯一客觀意義的可能。其三，運用巴拉德(K.Bard)的能動者實在論(agential realism)，將大數(shù)據(jù)對人的行為和社會活動的研究視為一種能動的認(rèn)識過程，即人的自我調(diào)節(jié)過程。基于大數(shù)據(jù)的人的行為與社會知識的發(fā)現(xiàn)應(yīng)該視為復(fù)雜系統(tǒng)的自適應(yīng)與自反饋過程，在此過程中，人與其被研究的行為大數(shù)據(jù)構(gòu)成了一種相互作用的機制，由此有望通過自我認(rèn)識而尋求新的變化與動態(tài)均衡。

知識構(gòu)建知識表征