念好大數據這個經

責任編輯：editor006 |來源：企業網D1Net 2014-10-13 17:15:58 本文摘自：新民晚報

大數據無疑是眼下的一個熱門話題，大家都在挖掘大數據，這當然是科技發展尤其是互聯網高速發展帶來的好東西。不過，大數據這個經需要念好，念不好不僅起不到效果，反而會誤導市場，誤導大家。

所謂大數據說得簡單點，就是從海量數據中挖掘有價值的信息，強大的計算機計算能力、互聯網搜索功能為數據分析創造了條件，也在實踐中起到較好的效果。比如，證券市場依靠大數據提高了監管能力，近期捉的不少基金經理老鼠倉就與大數據有關。監管部門通過搜索、比對基金經理建倉前一個月相同股票的買入情況，從而發現一些持續買入相同股票的賬戶，進而追蹤這些賬戶的資金來往，最終抓住了一批碩鼠。

但是，所謂的大數據也會鬧出一些笑話。比如，某地圖公司前不久發布了一個分析全國重點城市擁堵情況的大數據，結論是上海成為今年第二季度最擁堵城市。這個結論和大家的感受很不一致，全國最堵的城市顯然不是上海，而且，上海今年二季度并沒有比一季度更堵車，為什么二季度會上榜？之所以產生這個結果，是與該公司選取的樣本有關，與大家是不是使用該公司的地圖軟件有關，這種十分片面的選擇，導致最終的結論非常站不住腳。

類似的情況還有不少，世界杯期間，央視的一檔節目中發布了看球觀眾的大數據統計，其中很多結論明顯不對，比如，說晚上看球的都是30歲以下的觀眾，連電視主持人當場就覺得這個數據有問題。因為該數據的統計結果是根據在網上參與互動節目人的數量得出的，而一些30歲以上球迷在看球卻沒有參與節目互動，結論就變成他們沒有看球。

數據是死的，如何選取數據標準則是人為的，可以說大數據最終不是計算機得出的，還是人為的結果。如果設定的標準不科學，那么，結論一定是走樣的。從這個角度看，大數據是一門統計科學，隨隨便便弄弄是不負責任的表現，會誤導市場。長期來，中國的市場調查一直問題多多，原因就在于樣本統計標準不夠科學合理，希望這個毛病不要傳導到剛剛興起的大數據，不要念歪了大數據這本經。

關鍵字：數據標準看球