當前位置：大數據 → 業界動態 → 正文

應用大數據不僅是為了分析預測

責任編輯：editor004 作者：潘璠 |來源：企業網D1Net 2016-04-26 10:47:29 本文摘自：中國信息報

最近一段時間，筆者陸續看到一些非議大數據的文章，指出大數據的問題和局限性。但我看到的幾乎所有文章，提出的問題都是針對應用大數據進行分析預測而言。其實，早在兩年前，我就看到過一則所謂大數據的寓言。話說有一只小豬出生在豬圈里，從它出生起，每天就看到一些兩條腿的動物在周圍走來走去，給它送一些吃的喝的。小豬高興的時候，就在泥里打滾；憂傷的時候，就趴在豬圈里看夕陽西下。經過對幾百天的“大數據分析”，它得出結論“未來的日子也一定是這樣的”。終于，一場血腥的殺戮終結了它的大數據分析。臨死的時候，它恍然悟到“（此處省略兩個字），大數據都是騙人的”。

其實，寓言都是人編寫創作的，目的是說明作者的某種態度和觀點。而這則寓言的作者顯然回避了一些最為基本且重要的“劇情”，就是小豬的身邊還有沒有它的同類。如果有，那么小豬不可能看不到其他同類的下場；如果它忽視了，那只能說它的分析出了問題，忽視了幾百天的時間內其它同類的命運。如果這只小豬真的是一只遺腹子、獨生子女，前無古人后無來者，獨自在豬圈里住了幾百天，那么，還有什么其他方法能讓它對自己的命運作出更加準確的預測嗎？

當年，谷歌曾經準確地對禽流感疫情作出預測判斷。但作為一個成功的案例卻好景不長，此后，谷歌的預測不準了。于是，預測不準又成了“反面教材”。在今年第二期《統計研究》雜志上，秦磊和謝邦昌先生從數據源和統計分析方法的角度，對這個經典案例進行了剖析。而同樣的道理是，即使谷歌后來的分析有各種問題，但不依據大數據做出的、比谷歌的預測更加精準的禽流感預測案例，有嗎？

2014年9月，國家統計局舉辦全國統計系統建模大賽。統計科研所的參賽隊伍利用百度關鍵詞搜索，對北京的房價走勢進行了預測。有媒體擔心，統計部門如果做預測，就難免會將自己的實際數字往預測數據上靠，就難免帶來數據的失真。其實，利用搜索大數據分析房價，一是為了在傳統數據尚未出爐之前，對形勢發展早一些做出預判；二是為了使評估傳統數據質量時多一個參照系。分析房價如此，分析預測其他方面的數據及趨勢，意義同樣如是。對于其他研究人員、專家學者、主管部門而言，應用大數據的意義或許主要就是分析和預測，至少目前是這樣；但對政府統計部門和統計工作而言，應用大數據的意義絕非僅限于此，更為重要的，還是將大數據作為統計的重要數據源。

有些質疑的文章說，重視大數據的人，連什么是大數據也未必整得明白。其實，從麥肯錫報告到維基百科，從涂子沛先生的《大數據》到工信部的白皮書，對大數據的的定義都大同小異，概括起來就是三點：體量大，電子化產生，數據與技術的集成。在大數據改變著我們的生活、我們生活的改變又時時催生出新的大數據的今天，越來越多的大數據成為我們核心指標的基礎性數據。不將其恰如其分地納入統計范圍，我們的核心指標就面臨失真的風險。

前不久，有媒體報道，阿里集團的年銷售額已達3萬億元。這是什么概念呢？2015年全年，中國的社會消費品零售總額為30萬億元，國內生產總值是67.7萬億元。盡管不同指標間或有口徑、范圍的差異，但作為一家電商企業，阿里的市場份額和擴張速度還是可以由此窺豹一斑的。而除了龍頭老大阿里之外，還有京東商城、1號店等諸多電商平臺，規模和速度也不可小覷。網上零售的大數據將直接關系社會商品零售總額、行業增加值、居民消費價格指數、居民消費支出等諸多重要統計數據的準確程度。同樣，當很多人團購成為習慣、當外賣攻陷校園、當沒有一個人去影院買票卻可以滿場的時候，我們已經到了絕不能再固守原有統計渠道及方法的時候。面對大數據帶來的改變，從法律法規到制度方法、技術手段等諸多方面，變革真的迫在眉睫，真的刻不容緩。而這些，也真的比應用大數據開展分析預測更加重要和急迫。

關鍵字：谷歌房價走勢數據質量