大數據無疑是眼下的一個熱門話題,大家都在挖掘大數據,這當然是科技發展尤其是互聯網高速發展帶來的好東西。不過,大數據這個經需要念好,念不好不僅起不到效果,反而會誤導市場,誤導大家。
所謂大數據說得簡單點,就是從海量數據中挖掘有價值的信息,強大的計算機計算能力、互聯網搜索功能為數據分析創造了條件,也在實踐中起到較好的效果。比如,證券市場依靠大數據提高了監管能力,近期捉的不少基金經理老鼠倉就與大數據有關。監管部門通過搜索、比對基金經理建倉前一個月相同股票的買入情況,從而發現一些持續買入相同股票的賬戶,進而追蹤這些賬戶的資金來往,最終抓住了一批碩鼠。
但是,所謂的大數據也會鬧出一些笑話。比如,某地圖公司前不久發布了一個分析全國重點城市擁堵情況的大數據,結論是上海成為今年第二季度最擁堵城市。這個結論和大家的感受很不一致,全國最堵的城市顯然不是上海,而且,上海今年二季度并沒有比一季度更堵車,為什么二季度會上榜?之所以產生這個結果,是與該公司選取的樣本有關,與大家是不是使用該公司的地圖軟件有關,這種十分片面的選擇,導致最終的結論非常站不住腳。
類似的情況還有不少,世界杯期間,央視的一檔節目中發布了看球觀眾的大數據統計,其中很多結論明顯不對,比如,說晚上看球的都是30歲以下的觀眾,連電視主持人當場就覺得這個數據有問題。因為該數據的統計結果是根據在網上參與互動節目人的數量得出的,而一些30歲以上球迷在看球卻沒有參與節目互動,結論就變成他們沒有看球。
數據是死的,如何選取數據標準則是人為的,可以說大數據最終不是計算機得出的,還是人為的結果。如果設定的標準不科學,那么,結論一定是走樣的。從這個角度看,大數據是一門統計科學,隨隨便便弄弄是不負責任的表現,會誤導市場。長期來,中國的市場調查一直問題多多,原因就在于樣本統計標準不夠科學合理,希望這個毛病不要傳導到剛剛興起的大數據,不要念歪了大數據這本經。