大數據時代帶來的信息風暴,不僅改變著我們的生活、工作和思維,而且影響著人類認知視角,沖擊著科學研究的基本方法。經濟學被譽為社會科學“皇冠上的明珠”,其主要原因正是強調經驗數據驗證的實證主義較早在經濟研究中得到應用。對經濟學而言,大數據究竟是主流范式的革命,還是一個新的噱頭?帶著這樣的問題,筆者于2015年6月下旬參加了中國社會科學院的“電子社會科學”考察團,赴英國了解當代信息和數據科技對社會科學研究的影響。
“相關性與因果性”:
新方法論之爭?
當前關于大數據的一個重要分歧,就是“相關性與因果性”之爭。大數據倡導者維克托·邁爾·舍恩伯格明確指出,大數據時代最大的轉變就是放棄對因果關系的渴求,而代之以關注相關關系。在諾森比亞大學培訓第一天的課堂討論中,考察團就圍繞這個問題展開了激烈辯論。
實際上,早在大數據時代之前,“因果性與相關性”問題就已經是認知哲學、統計學、經濟學等領域中的一個老問題。從經濟學基礎方法論的角度來看,對“因果性與相關性”的辯論,是人類認知邏輯和科學研究基本問題“演繹與歸納”的現代升級版。19世紀中后期,德國歷史學派與奧地利學派之間展開了“方法論之爭”。奧地利學派創始人卡爾·門格爾堅持以邏輯演繹為基本分析方法。德國歷史學派則懷疑抽象邏輯演繹對現實理解和解釋的有效性,主張由于人類社會的復雜性,首先應該大量收集、整理各種歷史數據,并且從歷史數據中發現經驗規律。這與當前大數據方法論主張放棄或者弱化對因果性的追求,注重從海量數據中發現相關性的觀點如出一轍。從這個角度來說,德國歷史學派可謂大數據“先鋒”。
大數據帶來的“相關性與因果性”新方法論之爭不過是新瓶裝舊酒,實質問題仍然是哲學認識論中經驗論和唯理論對立的老問題。雖然是老問題,但在現代科學哲學認識論和新興的知識社會學之中,仍然是一個爭論焦點。
“你的理論假設是什么?”
“你的理論假設是什么?”這是在英國雷丁大學訪問時,考察團成員鐘春平教授向Jornvande Wetering博士提出的一個問題。Wetering博士介紹了正在進行的大數據項目“智慧城市”,該項目旨在通過收集整理大量城市相關數據和信息,改善城市治理和人民生活。在筆者看來,這個問題直指大數據的核心——大數據方法的應用是否可以脫離理論假設?
這個問題與前面的“方法論之爭”密切相關。主流經濟學對“方法論之爭”的當事雙方各打五十大板,認為“演繹與歸納”兩者不可偏廢,并且形成了標準的經濟學實證模式——提出假設和模型,使用數據進行計量檢驗,由此將“演繹與歸納”在哲學認知上的沖突掩蓋起來。新的“相關性與因果性”方法論之爭迫使人們重新面對這個問題,并對實證主義經濟學提出了挑戰。如果按照弗里德曼的“實證主義經濟學方法論”,預測是經濟理論的根本目標和檢驗手段的話,對經濟學理論而言,重要的問題就是“能否做出準確的預測”,而非“是否理解了真實的因果關系”。但是,大數據在探尋相關性方面的優勢,正好構成了對目前主流經濟學范式的批判和革命。至少有一部分大數據論者認為,不需要甚至不應該預設理論前提和假設,只需讓數據自我呈現出規律。按照這種“大數據經濟學”觀點,“假設建模—數據檢驗”的現行標準方法似乎已經過時了。
就自身邏輯而言,奧地利學派的先驗主義和邏輯演繹法倒是可以固守自身立場,并展開對大數據方法論的批判。畢竟探究世界真實狀況和因果關系才是科學研究的核心目標,預測只不過是副產品。在奧地利學派看來,沒有演繹邏輯和理論指導,歷史學派甚至不能確定什么樣的歷史資料和數據才是重要的,值得收集和整理。這個批判對大數據同樣有效。同樣是在雷丁大學的訪問之中,Nanda博士引述了IBM的報告:“人類社會每天生成的數據高達250兆億個字節。”從奧地利學派的視角來看,如果脫離具體的理論前提和需要,這個數據量沒有任何意義。生成數據實際上完全依賴于觀察者的目標和理論假設。脫離了這個前提,在不同測量工具精度的條件下,人們完全可以生成無限的觀察數據。
大英圖書館
在大數據時代會破產嗎?
大英圖書館是英國的國家圖書館,擁有超過1.5億件館藏。大英圖書館不僅大量收錄各種電子出版物,而且已經著手保存各種互聯網網頁內容。考慮到大數據時代還只是初露頭角,未來人類社會所能產生的各種文本、圖像等信息數據,無疑還會以指數級別增長。即使英國政府可以頒布法律使圖書館免費獲得這些信息,保存信息所消耗的成本無疑也會以指數級別增長。大英圖書館乃至英國政府能否承受如此高的成本,著實令人懷疑。
這個“杞人憂天”的疑問,其實關系到“數據”或者“信息”的經濟學屬性,即從“要素”或“財貨”角度來看待“數據”的成本收益問題。大數據理論有一種傾向,認為幾乎所有數據都是有價值的,至少是具有潛在價值,哪怕暫時不知道如何利用,也許在未來可以得到重新認識,因此都值得收集和整理。這看起來似乎很有道理,但從經濟學的角度看卻是不能成立的,因為經濟學的核心問題是“效率”,核心視角是“成本—收益”分析。不只是數據,任何事物都具有所謂“潛在”價值,但如果獲得和保存它的成本超過了收益,那么在經濟學者看來就是無效率的。
事實上,在信息時代之初,就有學者指出信息和數據具有“零邊際成本”特性,將完全改造經濟學,還有學者提出“新信息經濟學”,主張軟件等信息產品免費共享。大數據時代仍然面臨同樣的問題。部分學者主張數據是免費公共資源,具有巨大的外部性,最好由政府來提供。但經濟學的基本邏輯在此仍然是有效的。雖然具有某些新特性,信息和數據仍然是“要素”和“財貨”,需要付出成本,并且能夠產生收益。不計成本地收集整理大數據是行不通的。類似地,經濟學效率觀點還對另一個大數據觀點——所謂“全體數據”代替“隨機樣本”的新方法提出了挑戰。“全體數據”固然有其優勢,但放到經濟學“成本—收益”的框架下來看,其方法本身就未必有效率了。