有關大數(shù)據的討論,幾年間已經從早期的概念發(fā)展到今天的應用,應用領域也已從早期的商業(yè)領域拓展到學術領域、政策領域。首先,大數(shù)據特殊之處在于其數(shù)據來自于全體,而不再是部分數(shù)據的采樣。采樣數(shù)據無論如何抽取都會有抽樣偏差,進而可能導致結果的偏差,在這個意義上,大數(shù)據時代,可以依靠強大的數(shù)據處理能力處理全部的數(shù)據,這是多么令人興奮。其次,數(shù)據作為知識的重要來源,抽樣調查數(shù)據也好,二手文獻數(shù)據也好,人們均是從中進行分析并獲取知識,但這類數(shù)據中包含的變量總歸有限,知識的獲取也因而受限,而大數(shù)據將大量結構復雜、類型眾多的異構數(shù)據結合在一起,構成有無限組合可能的數(shù)據集合,使用計算能力可以無限擴充的云計算來進行,作為知識生產來源的大數(shù)據的數(shù)量級別進而達到PB級,因此其中潛藏的知識不知幾何,人們獲取知識的能力也可能會大大增加。
大數(shù)據的先行者通過各種數(shù)學和物理算法在大數(shù)據中掘金,一些人類過去未能發(fā)現(xiàn)的潛在關聯(lián)被發(fā)現(xiàn)和應用,并取得了矚目的成就和進展。基于此,大數(shù)據理論基本都提出:基于大數(shù)據發(fā)掘出的“有效”相關性關系即可進行預測;有效性不需要知道“為什么”,知道“是什么”即可。數(shù)據和算法驅動研究成為大數(shù)據研究的主要范式。我相信,大數(shù)據的無預設前提的數(shù)據驅動的相關關系的挖掘,有著解放人類被理論局限性束縛的手腳的功用。但是,我們會不會走出一個陷阱,又踏入另外一個陷阱呢?
我首先想討論的第一個問題是,來自于全體數(shù)據的結論就是可靠的嗎?在我參加的一次博士論文答辯中,答辯人報告,她使用全國人口普查數(shù)據發(fā)現(xiàn),老年人的健康與財富之間的關系是:老年人健康水平越低則財富越多,或者反過來說,老年人財富越多越不健康。評委當時一片嘩然。事實上這是合情理的,其機理就是,一個越不健康的老人,就需要越多越好的醫(yī)療資源才能存活,而越多的財富能保證其越多越好的醫(yī)療資源。因此,相同的不健康狀況的老人中,錢越多則具有越高的生存概率。換個角度看,不健康的老人中,沒錢的死了,有錢的活下來了;越是不健康的老人中,只有越有錢的才能存活。因此,全體數(shù)據的結果是:老人的財富與健康呈現(xiàn)出負相關。這是來自于全體數(shù)據的結果,顯然是合理的,但其顯示的相關關系卻有些荒謬。
這樣就導致了我的第二個問題:追求這樣的相關關系有價值嗎?這樣的相關關系可信嗎?我想讀者都不會相信,健康與財富呈現(xiàn)出的負相關是正確的相關關系,而出于理性,相信的恰恰是健康與財富應該呈現(xiàn)出正相關的關系。在這里,社會實體所表現(xiàn)出來的模式顯然違背了我們對社會的理論認識。我們都知道,理論是現(xiàn)實在頭腦中的反映,但是這個例子告訴我們,人類通過理性建構的理論并非社會現(xiàn)實在頭腦中的簡單反映。這里,我提出一對概念來闡述我的觀點。變量之間的關系有兩種表現(xiàn)形式,一種是社會實體的表現(xiàn)形式(real pattern),一種是社會理論的表現(xiàn)形式(relation pattern)。前者是社會實體直接體現(xiàn)出來的變量和變量之間的相關關系,后者是學者通過理性思考建構的理論空間的因果關系。變量在社會實體上表現(xiàn)的相關關系,由于社會實體的選擇性偏誤(例子中是由死亡的非隨機性造成),導致了相關關系的扭曲,甚至相反。因此,人們寧愿相信自己的理性,而不愿只是機械地接受社會實體表現(xiàn)出來的模式。
人類的理性,使得我們知曉變量間在社會實體上的表現(xiàn)形式并不必然等于社會理論上的表現(xiàn)形式。對大數(shù)據使用數(shù)據驅動,能獲得的僅僅是社會實體上的表現(xiàn)形式,這可能與理論空間的因果關系一致,也可能完全相反。因此,放棄人的理性思考,放棄獲得具有嚴密因果邏輯的理論上的表現(xiàn)形式,使用找到相關關系即可的大數(shù)據分析范式——數(shù)據驅動,在我看來是無法接受的。大數(shù)據的分析,仍然需要理論驅動和理論理解所建構的因果關系。因此,無論如何精巧的大數(shù)據分析工具的使用,都不能代替生產工具的人的理性思考。“武器的批判”并不能取代“批判的武器”。
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13743.html