大數據現在非常熱,美國白宮任命的委員會近日發布大數據政府報告,而中國央視在兩會中有大數據的專題,網絡中的大數據分析報告也比比皆是,從百度遷徙看“東莞挺住”,到馬年春晚的大數據分析。大數據正在從一種理論思考,演變成跨越社會各領域的實踐行為。
但大數據真的這么美嗎?如何讓數據說真話?當一切美好的討論需向現實兌現,大數據背后的泡沫,將成新的困惑。大數據目前存在五個大問題。
數據真實性。官員要政績、學界要交差、商界要名利。注水性數據導致硬數據軟化。基尼系數、博主粉絲量、復興指數,為何一直在被質疑?凡數據造假能獲利,則數據極可能有假。越來越多的軟件自動發布信息,使得大數據也是真假難辨。數據背后的細節,數據源的真實、全面以及處理過程的科學,是大數據走向權威和可信的重要保障。
樣本代表性。我們不可能搜集到全數據,而與大數據相關的形容詞往往是大規模、精準、細化,在調用如此“完美”的數據時,如何注意情景和樣本的適用性。正如網絡民意與現實民意的討論,微博不代表網絡,網絡不代表社會,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖論。在選樣、測量、誤差校正不盡如人意時,好數據將劣化,大數據將虛化。
相關性誤差。利用大數據,基于一定算法和模型對變量元素進行相關性分析,在要素構成簡單的情景中可以,在復雜系統中,僅有相關性解釋還不夠,易走偏。比如一個明顯不對的結論:一個城市的網頁數越高,其網絡形象就越好。雖然,數據統計證實了網頁數和網絡形象存在一般的正相關,但忽略了負面事件帶來的網頁量爆發等,結論也是不科學的。相關性要真正體現在數據之間、數據與真實事件影射的現象之間、真實事件的客觀聯系上。
故事化。大數據的概念沖擊、視覺盛宴,看上去不錯,但要警惕割裂傳統信息管理系統和大數據的關系,營造一個概念化、全新的東西。比如開發商大肆搞房地產,大數據要建數據中心,圈地成必然,又如做科研項目,思路和內容要新穎,不少人拉大旗借用大數據。大數據只有與實際接軌,工具化、服務化和實用化,能解決具體問題的大數據,才能打破泡沫,見證數據真正之美。
隱私侵犯。大數據中包含著每個人的小數據,這些數據經過進一步分析既能知道你的愛好,也能知道你的下意識行為傾向,如果據此來判斷一個人的未來,是否會重演大片“少數派報告”的場景,我們現在還不得而知。
當然,新事物多要經歷陣痛、廣受褒貶,才能逐漸練就為成熟的應用。大數據之路,要加強對真假數據的清洗,有好的矯正鑒別模型;商業中的大數據挖掘,應推動交互開放模式;政府可推動數據開放平臺的接口,建立更好的溝通渠道,加大數據造假的懲治力度。樣本代表性問題,如果無法做到全數據,應盡量考慮大數據分析的適用范圍和結論邊界。大數據分析也要有直觀體驗,明顯與實際不符的結論最好有多個來源證實,多實地視察,加強生活中人性化溝通、交流,通過人際體驗獲得第一手材料。對涉及個人隱私的數據,需要加快立法,予以規范,避免為技術所異化。