色婷婷综合久久久中文字幕,亚洲精品中文字幕不卡在线,国产免费久久精品久久久

大數據，沒有看起來那么美

責任編輯：王李通

2014-05-12 08:25:21

摘自：環球時報

大數據現在非常熱，美國白宮任命的委員會近日發布大數據政府報告，而中國央視在兩會中有大數據的專題，網絡中的大數據分析報告也比比皆是，從百度遷徙看“東莞挺住”，到馬年春晚的大數據分析。

大數據現在非常熱，美國白宮任命的委員會近日發布大數據政府報告，而中國央視在兩會中有大數據的專題，網絡中的大數據分析報告也比比皆是，從百度遷徙看“東莞挺住”，到馬年春晚的大數據分析。大數據正在從一種理論思考，演變成跨越社會各領域的實踐行為。

但大數據真的這么美嗎？如何讓數據說真話？當一切美好的討論需向現實兌現，大數據背后的泡沫，將成新的困惑。大數據目前存在五個大問題。

數據真實性。官員要政績、學界要交差、商界要名利。注水性數據導致硬數據軟化。基尼系數、博主粉絲量、復興指數，為何一直在被質疑？凡數據造假能獲利，則數據極可能有假。越來越多的軟件自動發布信息，使得大數據也是真假難辨。數據背后的細節，數據源的真實、全面以及處理過程的科學，是大數據走向權威和可信的重要保障。

樣本代表性。我們不可能搜集到全數據，而與大數據相關的形容詞往往是大規模、精準、細化，在調用如此“完美”的數據時，如何注意情景和樣本的適用性。正如網絡民意與現實民意的討論，微博不代表網絡，網絡不代表社會，朋友圈也是小圈子，跳出圈子看世界不容易，切勿陷入相同的悖論。在選樣、測量、誤差校正不盡如人意時，好數據將劣化，大數據將虛化。

相關性誤差。利用大數據，基于一定算法和模型對變量元素進行相關性分析，在要素構成簡單的情景中可以，在復雜系統中，僅有相關性解釋還不夠，易走偏。比如一個明顯不對的結論：一個城市的網頁數越高，其網絡形象就越好。雖然，數據統計證實了網頁數和網絡形象存在一般的正相關，但忽略了負面事件帶來的網頁量爆發等，結論也是不科學的。相關性要真正體現在數據之間、數據與真實事件影射的現象之間、真實事件的客觀聯系上。

故事化。大數據的概念沖擊、視覺盛宴，看上去不錯，但要警惕割裂傳統信息管理系統和大數據的關系，營造一個概念化、全新的東西。比如開發商大肆搞房地產，大數據要建數據中心，圈地成必然，又如做科研項目，思路和內容要新穎，不少人拉大旗借用大數據。大數據只有與實際接軌，工具化、服務化和實用化，能解決具體問題的大數據，才能打破泡沫，見證數據真正之美。

隱私侵犯。大數據中包含著每個人的小數據，這些數據經過進一步分析既能知道你的愛好，也能知道你的下意識行為傾向，如果據此來判斷一個人的未來，是否會重演大片“少數派報告”的場景，我們現在還不得而知。

當然，新事物多要經歷陣痛、廣受褒貶，才能逐漸練就為成熟的應用。大數據之路，要加強對真假數據的清洗，有好的矯正鑒別模型；商業中的大數據挖掘，應推動交互開放模式；政府可推動數據開放平臺的接口，建立更好的溝通渠道，加大數據造假的懲治力度。樣本代表性問題，如果無法做到全數據，應盡量考慮大數據分析的適用范圍和結論邊界。大數據分析也要有直觀體驗，明顯與實際不符的結論最好有多個來源證實，多實地視察，加強生活中人性化溝通、交流，通過人際體驗獲得第一手材料。對涉及個人隱私的數據，需要加快立法，予以規范，避免為技術所異化。

誤差校正數據挖掘數據中心大數據