最近一段時間,筆者陸續看到一些非議大數據的文章,指出大數據的問題和局限性。但我看到的幾乎所有文章,提出的問題都是針對應用大數據進行分析預測而言。其實,早在兩年前,我就看到過一則所謂大數據的寓言。話說有一只小豬出生在豬圈里,從它出生起,每天就看到一些兩條腿的動物在周圍走來走去,給它送一些吃的喝的。小豬高興的時候,就在泥里打滾;憂傷的時候,就趴在豬圈里看夕陽西下。經過對幾百天的“大數據分析”,它得出結論“未來的日子也一定是這樣的”。終于,一場血腥的殺戮終結了它的大數據分析。臨死的時候,它恍然悟到“(此處省略兩個字),大數據都是騙人的”。
其實,寓言都是人編寫創作的,目的是說明作者的某種態度和觀點。而這則寓言的作者顯然回避了一些最為基本且重要的“劇情”,就是小豬的身邊還有沒有它的同類。如果有,那么小豬不可能看不到其他同類的下場;如果它忽視了,那只能說它的分析出了問題,忽視了幾百天的時間內其它同類的命運。如果這只小豬真的是一只遺腹子、獨生子女,前無古人后無來者,獨自在豬圈里住了幾百天,那么,還有什么其他方法能讓它對自己的命運作出更加準確的預測嗎?
當年,谷歌曾經準確地對禽流感疫情作出預測判斷。但作為一個成功的案例卻好景不長,此后,谷歌的預測不準了。于是,預測不準又成了“反面教材”。在今年第二期《統計研究》雜志上,秦磊和謝邦昌先生從數據源和統計分析方法的角度,對這個經典案例進行了剖析。而同樣的道理是,即使谷歌后來的分析有各種問題,但不依據大數據做出的、比谷歌的預測更加精準的禽流感預測案例,有嗎?
2014年9月,國家統計局舉辦全國統計系統建模大賽。統計科研所的參賽隊伍利用百度關鍵詞搜索,對北京的房價走勢進行了預測。有媒體擔心,統計部門如果做預測,就難免會將自己的實際數字往預測數據上靠,就難免帶來數據的失真。其實,利用搜索大數據分析房價,一是為了在傳統數據尚未出爐之前,對形勢發展早一些做出預判;二是為了使評估傳統數據質量時多一個參照系。分析房價如此,分析預測其他方面的數據及趨勢,意義同樣如是。對于其他研究人員、專家學者、主管部門而言,應用大數據的意義或許主要就是分析和預測,至少目前是這樣;但對政府統計部門和統計工作而言,應用大數據的意義絕非僅限于此,更為重要的,還是將大數據作為統計的重要數據源。
有些質疑的文章說,重視大數據的人,連什么是大數據也未必整得明白。其實,從麥肯錫報告到維基百科,從涂子沛先生的《大數據》到工信部的白皮書,對大數據的的定義都大同小異,概括起來就是三點:體量大,電子化產生,數據與技術的集成。在大數據改變著我們的生活、我們生活的改變又時時催生出新的大數據的今天,越來越多的大數據成為我們核心指標的基礎性數據。不將其恰如其分地納入統計范圍,我們的核心指標就面臨失真的風險。
前不久,有媒體報道,阿里集團的年銷售額已達3萬億元。這是什么概念呢?2015年全年,中國的社會消費品零售總額為30萬億元,國內生產總值是67.7萬億元。盡管不同指標間或有口徑、范圍的差異,但作為一家電商企業,阿里的市場份額和擴張速度還是可以由此窺豹一斑的。而除了龍頭老大阿里之外,還有京東商城、1號店等諸多電商平臺,規模和速度也不可小覷。網上零售的大數據將直接關系社會商品零售總額、行業增加值、居民消費價格指數、居民消費支出等諸多重要統計數據的準確程度。同樣,當很多人團購成為習慣、當外賣攻陷校園、當沒有一個人去影院買票卻可以滿場的時候,我們已經到了絕不能再固守原有統計渠道及方法的時候。面對大數據帶來的改變,從法律法規到制度方法、技術手段等諸多方面,變革真的迫在眉睫,真的刻不容緩。而這些,也真的比應用大數據開展分析預測更加重要和急迫。