當前,全國各地都在建設大數據中心,有些偏僻的山區都建立了容量達2PB(拍字節)以上的數據處理中心,許多城市公安部門要求存儲3個月以上的高清監控錄像。其背后的問題是,這些系統的成本都非常高。
數據挖掘的價值是用成本換來的,不能不計成本、盲目建設大數據系統。什么數據需要保存、要保存多長時間,應當根據可能的價值和所需的成本來決定。大數據系統技術還在研究之中,美國的E級超級計算機系統要求能耗降低到原來的千分之一,計劃到2024年才能研制出來。因此,用現在的技術構建的巨型系統,能耗極高。
一味追求數據規模不僅會造成浪費,而且效果未必很好。多個來源“小數據”的集成融合可能挖掘出單一來源大數據得不到的“大價值”。因此,應在數據的融合技術上多下功夫,重視數據的開放與共享。所謂數據規模大與應用領域有密切關系,有些領域幾個PB的數據未必算大,有些領域可能幾十TB(太字節)已經是很大的規模。
此外,大數據主要難點不是數據量大,而是數據類型多樣、要求及時回應和原始數據真假難辨。現有數據庫軟件無力應對非結構化數據,所以要重視數據融合、數據格式的標準化和數據的互操作。數據質量不高是大數據的特點之一,但盡可能提高原始數據的質量仍然值得重視。比如,腦科學研究的最大問題就是采集的數據可信度差,基于可信度很差的數據難以分析出有價值的結果。
可見,發展大數據不能無止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發展道路,要像現在治理環境污染一樣,及早關注大數據可能帶來的“污染”和侵犯隱私等各種弊端。
實際上,發展信息技術的目的是為人服務,檢驗技術的唯一標準是應用。我國發展大數據產業一定要堅持“應用為先”的發展戰略,堅持應用牽引的技術路線。所謂技術有限、應用無限,各地發展云計算和大數據,一定要通過政策和各種措施調動應用部門和創新企業的積極性,通過跨界的組合創新開拓新的應用,從應用中找出路。
目前流行的大數據定義是“當前技術無法處理的數據集合”,這種針對未知技術的定義強調大數據不同于數據庫等傳統技術能對付的小數據,有利于推動基礎研究、激勵探索新技術,但可能引導大家只重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業碰到的數據處理多數還是“小數據”問題。我們應重視實際碰到的問題,不管是大數據還是小數據。
統計學家們花了200多年,總結出認知數據過程中的種種陷阱,這些陷阱不會隨著數據量的增大而自動填平。大數據中有大量的小數據問題,大數據采集同樣會犯小數據采集一樣的統計偏差。Google公司的流感預測這兩年失靈,就是由于搜索推薦等人為的干預造成統計誤差。
因此,我們不要攀比大數據系統的規模,而是要比實際應用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數據應用,因地制宜發展大數據。發展大數據與實現信息化的策略一樣:目標要遠大、起步要精準、發展要快速。