看到這樣一個題目,也許有人會說,時至今日,這還用說嗎?但寫下這個題目,恰恰是因為在大數據日益受關注,應用大數據逐漸由企業和研究機構的個體行為拓展到國家戰略層面的背景下,也一直有一些不同的聲音不絕于耳。
我曾在京城某著名媒體上看到一篇寓言,說是一只小豬出生在豬圈里,每天總是看到一些兩條腿的動物來給它們喂各種吃的。高興的時候,它就在泥里打滾;憂傷的時候,它就趴在那里看夕陽西下。經過對幾百天的大數據分析,它認為未來的日子也一定是這樣的。終于,一場血腥的殺戮結束了它的大數據分析。臨死的時候它說了一句話:大數據都是騙人的。
去年年底,在一次大數據國際研討會上,也有外國專家提出,大數據可能也是一個大陷阱。這個結論,與上面那個寓言或有異曲同工之味道。而最近,一位知名的社會學學者,寫了一篇頗有影響的文章,批判“大數據崇拜”,認為“所謂的大數據,其實只不過就是一堆垃圾,只有社會研究和人文研究,才可能把它變廢為寶”。
當然,無論從學術的角度還是從娛樂的角度,對大數據這樣一個新事物都是可以仁者見仁、智者見智的。但這些對大數據的非議至少有一個共性或特點,就是對大數據的研究成果只有相對較少的了解,甚至有一些誤解。恰如今年早些時候《中國青年報》的一項調查結果所示,既有4/5的受訪者認為不清楚什么是大數據,又有3/4的受訪者認為存在大數據被濫用的情況,且還有超過2/5的受訪者認為大數據有分析價值。這個結果真實地反映了人們對大數據認識的現狀。一方面并不了解,一方面卻作出自己的評判。
而認可也好反對也罷,總應該把現有的成果作一些全面深入的梳理研究后再下結論。各方對大數據的表述固然各有側重,但實質上大同小異,要強調的主要就是三點:第一,應該是電子化的數據;第二,應該是太字節到拍字節的大型數據集;第三,應該是數據及其處理技術手段的集成。從特性上看,其應該具有數據體量大、類型多樣化、處理速度快、應用價值大、發送方式靈活等諸多特點。由此來看,那些只有幾個、十幾個、幾十個、幾百個乃至更多一些樣本或由全樣本構成的總體,無論是電子化還是非電子化數據,真的與我們要觀察要應用要開發要研究的大數據差之甚遠。
而我們統計工作者研究問題,是需要把邊界劃分清楚的。基于以往的研究和統計工作的需求,我們把大數據作了兩種劃分。從存在形式上看,就是可以用二維表顯示的結構化數據和文字、圖片、音頻、視頻等非結構化數據;從數據來源看,就是行政記錄、企業單位經營記錄和互聯網信息。如此,大數據一定是一座大寶庫。它的價值不僅客觀存在,而且還在不斷產生著,也在不斷地流失著。而對統計工作而言,首先要解決的不是去尋找“啤酒與尿布”之類的所謂關聯,而是要將其作為數據源的第二軌。因為在基于大數據生成的基礎數據越來越多、比重越來越大的背景下,僅采取傳統方式搜集傳統數據,統計數據就有失真的危險。在此基礎上,無論是社會研究、人文研究或經濟研究,都一定是大有可為的。我曾經在12年前研究過北京的非典數據庫。但那些有限的數據都是在病人確診前后,依據其口述內容生成的。如果有包括這些病人在內的龐大的個人電子就診記錄,一定可以從中發現很多有價值的信息。
所謂“大數據崇拜”與所謂“GDP崇拜”一樣,或許是一個偽命題。因為所謂崇拜,一定含有某種神話的味道。而片面追求GDP,只是錯誤政績觀所致。至于大數據,有識之士只是強調了其重要性而已。正因為重要,美國總統行政辦公室于2014年5月發布政策報告,題目就叫《大數據:抓住機遇,保存價值》。正因為重要,國務院常務會議8月19日通過了《關于促進大數據發展的行動綱要》,并提出了運用大數據各部委行動時間表。大數據是一座大寶庫,我們真的不要讓這座寶庫的價值再白白地流失掉。