“用數據說話”成為共識 大數據發展進展明顯
轉眼間,研究大數據已經五年了。過去五年,大數據理念已經深入人心,“用數據說話”已經成為所有人的共識,數據成了堪比石油、黃金、鉆石的戰略資源。人們對大數據的認識也更加具體化,數據無所謂大不大,有用最重要;數據是基礎,但分析挖掘和應用才是根本。
大數據五年來
取得明顯進展
五年來,不僅對大數據的認識經歷了螺旋式上升,而且實踐逐漸落地,國內的大數據產業政策日漸完善,技術、應用和產業都取得了非常明顯的進展。
一是政策持續完善。在頂層設計上,國務院《促進大數據發展行動綱要》對政務數據共享開放、產業發展和安全三方面做了總體部署。數據開放共享方面的《政務信息資源共享管理暫行辦法》、產業方面的工信部《大數據產業發展規劃(2016-2020)》、數據安全方面的《中華人民共和國網絡安全法》等都已出臺。衛計、農業、檢察、稅務等部門還出臺了大數據產業發展的具體政策。此外,17個省市發布了大數據發展規劃,十幾個省市設立了大數據管理局,8個國家大數據綜合試驗區、11個國家工程實驗室啟動建設??梢哉f,適應大數據發展的政策環境已經初步形成。
二是技術穩步提升。開源給國內產業界提供了一個跳板,讓我們與國際上大數據技術先進水平的差距在不斷縮小。2014~2016年,百度、阿里和騰訊先后拿下國際上知名的SortBenchmark大賽冠軍。這個競賽全面比拼分布式系統軟件架構能力,包括海量數據分布式存儲、計算任務切片調度、節點通信協調同步、數據計算監控、硬件架構等方面的能力。而這一賽事2014年之前的冠軍均被微軟、Yahoo、亞馬遜等包攬。這從一個側面反映了我國產業界在大數據處理技術水平上的快速提升。與此同時,還有像一批國產化的商用大數據平臺產品崛起,底層技術越來越扎實。
三是應用逐漸落地。比如,在金融領域,2016年商業銀行全面部署大數據基礎設施,五大國有銀行、股份制、城商行和農商行已經逐步開始了從傳統數據倉庫架構向大數據平臺架構的轉型改造過程,基于大數據風控的“秒貸”業務越來越普及,不僅提升了貸款效率,還擴大了普惠金融的覆蓋面。在電信領域,中國電信的大數據平臺已經擴展到31個省,匯聚了全國的基礎數據形成了“天翼大數據”服務能力;中國聯通也實現了數據整合,大數據產品體系已經推出征信、指數、營銷等六大產品種類。
四是產業快速崛起。圍繞數據的產生、匯聚、處理、應用等環節的產業生態從無到有,不斷壯大。中國信息通信研究院發布的《中國大數據產業調查報告(2017年)》顯示,2016年中國大數據核心產業(軟件、硬件及服務)的市場規模為168億元,較2015年增速達45%,預計到2020年將達到578億元。2016年獲得融資的企業數量達到400多家,2017年前3個月有150多家企業獲得融資,其中半數為中國公司,資本源源不斷地投向大數據領域。
大數據代表了一種現象,即數據的指數增長超過了人們管理、處理和應用數據的能力的增長,產生了一個“剪刀差”,而且這個“剪刀差”無疑將長期存在。無論是對一個國家還是一個企業,誰能在縮小大數據剪刀差上拔得頭籌,把數據用好,就能占有競爭優勢。
未來大數據
發展方向
大數據前景十分廣闊,但也應該看到,還有很多問題等著我們去一個個解決,比如以下幾點:
一是打破數據孤島。人人都想要別人的數據,但都不愿意把自己的數據給別人。與此同時,以前信息系統建設都從一個個“煙囪”開始,數據缺乏互通的技術基礎。從國家層面到企業內部,情況大同小異。麥肯錫2016年年底的一份報告顯示,大數據在很多領域沒有達到預期效果,很重要的原因就是數據割裂。這些年,推動數據開放共享的政策舉措一直在加強,政策已經很給力了,但效果與預期還有差距,碰到了瓶頸。政策再往前,仿佛遇到一堵高高的墻,這時就需要技術“拉一把”。的確,數據共享技術供應有些滯后了。未來,如果同態加密、差分隱私、多方安全計算、零知識證明等技術能取得突破,數據共享就能再前進一大步。區塊鏈的共享賬本、集體維護、難以篡改特性,也有望助推數據共享。
二是數據資產管理。數據分析工作,往往有80%的時間和精力都耗費在搜集、清洗和加工數據上。很多單位大數據應用效果不佳,多半問題出在數據管理上。數據管理從長期來說是戰略層面的事情,每個企業都將成為數據驅動的企業。
三是深化領域應用。雖然大數據的應用取得了一定進展,在互聯網、金融、電信等領域產生了實實在在的效益,醫療、工業領域也正在加速。但總體上只能說剛剛走出了小半步。一類是“平行替代”,如用金融和電信行業用Hadoop來重構原來的昂貴的數據倉庫。另一類只能算“補課”,如政務、醫療、工業等領域,正在做的工作是在原有業務系統之外,新建原來缺失的數據平臺。隨著這些“替代”型或“補課”型應用的深入推進,未來業務與數據將加深融合,越來越多數據驅動的新模式、新業態值得所有人期待,也只有這樣,數據強國才能落到實處。