“大數據”聽起來看起來都不陌生,但是真要問起來什么是大數據,大數據該如何運用,或許很多人并不清楚。事實上,大數據就是從看似雜亂、重復、無趣的數據中,根據需要理出一條線索,為解決問題提供靠譜的依據。近日,由省社科聯主辦的大數據與社會科學理論茶座邀請到了中國工程院院士、中國互聯網協會理事長鄔賀銓,國家信息中心專家委員會主任寧家駿來濟講授大數據建設的利與弊。
大數據的應用
對于大數據的定義,或許用以下的例子就可以讓人有個大致了解。
2013年十一黃金周之前,百度的數據分析師忽然發現網民點擊搜索“九寨溝”的流量非常大,到九寨溝“怎么玩”、“住在哪”、“怎么去”成了熱點詞,點擊量突然有一個爆發性的增長。百度的數據分析師不敢怠慢,把數據給國家旅游局、四川旅游局、九寨溝景區等做了通報,提醒對方十一期間,到九寨溝的旅游人數可能有一個爆發性增長,希望相關部門最好做好預案,可是相關部門都沒把這當回事。結果,當年的黃金周,去九寨溝旅游的人數真的暴增,而去九寨溝景點的車輛有限,大量的游客滯留在景區外,憤怒的人群制造了許多不愉快的事。
2015年元旦,上海外灘的陳毅廣場上,慶祝新年的人群發生了慘烈的踩踏事故。這個事情本來可以避免。實際上,早在新年之前,也就是2014年12月31日晚上,大量的人群開始在外灘聚集準備慶祝新年,而每個人身上攜帶的手機產生的信號其實早已經作為人群密度的直接數據通過電信部門告知了上海公安局。但由于沒有采取相應的措施疏導人群,最終導致了慘劇的發生。
從以上的例子可以看出來,基于網絡產生的大量數據,經過分析之后,使得看似毫無關聯的事情變得有了關系,之后進行干預并引導其向有利的方向發展。這些有價值的數據,就是大數據的一種體現。
隨著科技的發展,互聯網、物聯網與人們的日常生活越來越緊密,城市人群每天都會通過手機、公交卡、電腦等方式產生各種各樣的互動,在網絡上留下痕跡,這些數據匯總之后,可以經過分析產生許多有價值的信息。例如韓國首爾有一條酒吧街,年輕人都喜歡在那里玩到很晚。之前的時候,這條街沒有深夜運營的公交車,出行只能自駕或者出租車,但是進酒吧都是喝酒的,這就沒法自駕,而出租車又很貴,于是市民就要求開通一條夜間運營的線路。可是線路該如何設計才能效率最大化呢?當地相關部門通過分析此前市民從酒吧街離開后打車、網絡叫車等的主要目的地,最終得出了一條熱點線路,開通了公交,極大地方便了市民出行。對此,寧家駿表示,北京以及國內不少城市在這一點上做得并不好,經常是熱點線路擠不上人,有的線路則經常空車,資源利用效率不合理。
再比如,美國的NBA很早就引入了數據化管理,從上世紀80年代開始,NBA就將球員在賽場的表現數據化,經過30多年的積極改進已達到了可辨別每一個球員在場上的弱點,方便教練進行針對性戰術安排。“如果把這樣的大數據分析應用到中國足球隊身上,成績應該會提高不少。”鄔賀銓說。
不要盲目建設
從某種程度上來說,中國是數據資源的大國,因為人口以及網民的數量龐大,每天產生海量的數據,將這些數據加以匯總、分析,可以更加行之有效地治國理政。以醫療數據為例,2008年僅3D 核磁產生的數據就達到100G,這些數據還要被保存50年,如果把所有的醫療數據都加起來的話,肯定也是大數字。不僅如此,中國的醫生職業生涯中會看幾千個病人,這是美國醫生遠遠不能比的,由此產生的經驗和數據也是相當豐富的,一旦利用起來,可以有效地提高醫療水平。但在鄔賀銓、寧家駿看來,現在的問題是,數據共享存在不少障礙,數據都存在部門化、利益化的傾向,想要真正無障礙高效利用,任重而道遠。
盡管大數據有不少好處,我國也是一個數據資源大國,但是專家并不建議各地盲目上馬建設大數據項目。“大數據不等于傳統的數據庫存建設,大數據需要云計算但大數據建設也不等于云計算中心建設。”寧家駿表示,在將大數據上升為國家戰略的過程中,依然要避免出現產能過剩的問題。
寧家駿說:“河北省有三個地方同時報大數據中心建設的項目,分別是廊坊、張北、承德。這其中張北還好說,是因為冬奧會要在那里開,但承德要搞大數據中心就沒有必要了。”從之前的相關高科技項目來看,部分地區存在建設項目就是為了圈地、蓋房,但真正建設好之后,廠房里可能什么都沒有,或者花高價買來了設備卻因為缺乏應用而將設備閑置。“這些高科技設備跟手機一樣,放上兩三年就一分錢不值了。部分地方花錢建設了,什么效益都產生不了,純粹浪費納稅人的錢。”寧家駿說。
對于山東社科聯將要建設大數據中心,寧家駿表示,這個中心不一定真正自己去建設。可以租用山東大學、浪潮等科研、企業的設施,使用自己的數據,將大數據中心的建設實現社會化。但關鍵還是需要人才的儲備。
與國外的差距
2012年奧巴馬發布美國的大數據行動計劃,中國國務院是以國字頭發文件在2015年發布中國的大數據行動計劃,兩者差三年。這個三年的差距應該放到互聯網的發展歷史中來看:美國是1969年開始使用互聯網,中國則是1994年才進入互聯網,從互聯網的起步到大數據的行動,中國和美國的差距縮小了很多。從這個意義上說,中國在大數據的問題上有一個好的起步階段。但是從另一個角度看,美國在大數據方面是有很強大的基礎的,大數據涉及到存儲、分析、應用等各個方面,甚至包括大數據的硬件產品基本都是美國遙遙領先。就連提供大數據服務的軟件也是谷歌、亞馬遜、IBM等美國公司。在這里的差距就不是三年了。
在鄔賀銓看來,盡管有的中國公司稱從谷歌挖了國外頂尖的人才或者團隊,但大數據是一個系統技術,僅僅是一兩個人或者團隊,沒法根本改變國內大數據建設的不足。
除此之外,大數據的應用還涉及到網絡安全。民航、高鐵、銀行等如今都在大數據的控制之下,而大數據常采用云計算,其云存儲容易成為被攻擊目標,用戶面臨數據泄露和篡改的風險。在這方面,美國的網絡安全排世界第一,中國僅排到四十位。同時,大數據由于在全球范圍內都處于起步和摸索階段,非常需要創新的環境作為其發展的支撐,從這一點來說,美國也排在前面,他們從教育開始,小孩的創新就比中國強,我們現在雖然呼吁“萬眾創新”,但是總體上還是創新不如美國。
不僅如此,美國有很好的法律來保障大數據,中國現在在這一方面欠缺很多。沒有法律支撐,連政府部門都不敢開放數據——萬一開放了某些金融類數據,搞不好還會被說成存在利益輸送。也因為沒有相關法律,大數據中涉及到個人的,什么是隱私什么是公開,沒有相應的界定,也沒有機制來保證利益。“我們跟世界發達國家比起來,在大數據問題差距較大,還需要從多方面發展。”鄔賀銓說。