“通過大數據的挖掘,從資料完整度、交友真誠度及賬號安全度評定用戶‘靠譜度’。”一家著名婚戀介紹網站最近打出廣告,聲稱可用“大數據”技術打擊相親騙子。
如今,“大數據”是一個時髦的詞匯,很多商家紛紛推出“大數據”服務。全世界的大數據技術研發機構都吸引了眾多風投和眼球。
大數據讓人眼前一亮,也讓人兩眼一黑。9月,著名信息技術分析公司Gartner發布《2013年大數據普及程度背后的炒作》報告,指出2013年30%的企業已開始大數據工作,而另外34%的企業有計劃在兩年內開始。但這些企業大多告訴調查者,不知道自己在做什么,也不知道為什么要做大數據工作。
根據這一報告,半數以上企業不知道如何從數據中獲取價值;三分之一的企業缺乏大數據處理能力;甚至還有超過五分之一的公司不知大數據究竟為何物。
如果連嗅覺靈敏的企業家們都不真正理解大數據,其他人就更是難窺其全貌。大數據時代還在雛形,它會變成什么樣子沒人能說準。
起源于科學界的商業熱詞
盡管商界對大數據帶來的商機津津樂道,但一開始討論大數據時代的是科學家。“生命與醫療、粒子物理、天氣預報、基因學、地震預報等已經是數據密集型應用了。”清華大學自動化系教授肖田元說,“典型的例子是美國氣象預報局年數據量達30PB(1PB=100萬GB),每日觀察資料超過35億份。DNA序列分析使用網絡大數據分析工具進行億萬次DNA短鏈分析,制造基于DNA的分子物質。科學家還推出大尺度數據管理架構與可視化方法,讓解碼人類基因組這種原先花費10年的工作可以在一周內完成。”
上海大學教授費敏銳介紹道:“像華大基因,分析的數據量有幾百PB。他們在全世界找到了25種栽培稻和24種野生稻,正因為有大數據分析能力,他們掃描了這些水稻的全基因圖,找到了162個決定水稻產量的基因。”
大型強子對撞機(LHC)的例子更是常被提及,LHC每秒鐘生成1PB的數據,要用4.5萬個磁帶機做存檔,是目前世界上最大的數據生產者。
在此背景下,2008年9月,《自然》雜志推出大數據專刊,探討科研形態變化;《科學》雜志2011年也推出大數據專刊,將大數據深度分析看成未來研究的突破點。
“真正開始討論大數據,大家都公認是《自然》雜志2008年的專輯所帶來的。”電子科學研究院研究員王積鵬說,“計量文獻來看,討論大數據的論文2011年發生井噴。這幾年大家都拿大數據說話,但是主要在于應用,而不是在于理論研究。”
科學家們當時的憂慮是大數據難以處理,肖田元說:“計算機已經超過了千萬億次級,‘天河二號’是2000萬億次,未來10年可能達到億億次。但是軟件發展很慢。美國也是這樣,認為高性能計算的算法開發滯后。我們國家高性能計算機為什么利用率不高,原因就在這里。”
典型的數據管理困境,如國內一位信息技術工作者所說:“我做過某衛星的信息資源管理,衛星每天產生上百GB的數據量。處理完之后,文件都存在相應的磁盤、磁帶等,通過幾個系統呈現,一年下來數據量相當大,但是并沒有產生大數據的特性。”
工業界也提出了類似問題,肖田元舉例說:“有個著名的發動機公司提出設想,把它的航空發動機數據實時傳到總部,結合過去的數據,實時檢測和預報故障。數據量非常大,現在要同時檢測、計算和預報,很難做到。”這一困難,肖田元概括為“科研智能如何趕上感知能力”。
在科研界關于大數據挑戰的討論之后,互聯網商業看到了大數據中的“金礦”。這也是被如今大家所熟悉的大數據議題。最典型的例子如宏源證券研究所副所長易歡歡介紹:“阿里巴巴,最早從B2B到B2C,聚集了千萬級的中小微企業,形成了5.4億注冊用戶。這個公司牛在哪?這些數據背后的因素包括什么?銷售數據、產品數據、應收賬款、存貨、資金流向、物業信息等一系列綜合信息,而且是實時的,遠比銀行報表準確得多。它有你的消費偏好、家庭地址、還款卡號等一系列信息,這才叫大數據。”
IT業研究公司M&M發布的一份最新報告指出,全球大數據市場將在未來5年內迎來高達26%的年復合增長率——即從今年的148.7億美元增長到2018年的463.4億美元。膨脹速度如此快,可見市場對大數據概念響應的熱烈。
不同行業從不同角度發現了數據爆炸的挑戰和機會。最終,大數據頻頻見諸媒體,成為達沃斯等國際峰會上的熱詞,但就如前述報告所顯示的,企業家對這一概念并無把握。
數據公開讓美國占得先機
大數據商機顯現后,2012年3月,奧巴馬政府發布《大數據研究與發展倡議》,同時組建“大數據高級指導小組”,標志著美國把大數據提高到國家戰略層面。
國防大學教授胡曉峰說:“我認為奧巴馬試圖通過大數據發展計劃,再次重復信息高速公路計劃帶來的互聯網霸權。美國人已經把目光瞄準到大數據的未來領域,我覺得是為了創造未來的大數據霸權奠定基礎。”
“美國政府提出大數據計劃的根源,在于有十幾年以上數據公開的基礎。”北京理工大學教授丁剛毅說,美國的DATA.GOV網站就體現了政府公開數據的力度,“大家可以上網看,DATA.GOV的數據量非常大,和世界銀行、聯合國的數據都可以媲美。里面很多都是敏感數據,但它就是敢公布,認為只有公布這樣的數據,才能有更好的國際合作去應對危機。歐盟、英國,包括巴西這樣的發展中國家,都已經加入了DATA.GOV”。
丁剛毅說,在數據公開上,聯合國組織和美國的一些研究機構在全力以赴,已經有10年了。每年還有各式各樣的活動促進數據公開。
美國數據開放,使不少基于政府數據的服務,創造了巨大效益。比如硅谷有一家“氣候公司”,利用美國氣象局數據庫中幾十年的天氣數據,研究各地降雨、氣溫、土壤狀況與歷年農作物產量的相關度,預測農場下一年的產量,以出售保險。這家公司由于前景光明,最近被農業巨頭孟山都公司收購。
還有利用氣象信息和航班誤點信息來預測航班誤點幾率的服務,可以推動航空公司提高正點率。再如城市治堵,政府的數據也排上了用場——美國和英國最早利用大數據管理交通,給出交通預測,讓公私車輛適時出行。
對于政府數據公開的益處,美國商務部首席信息官西克曼在一次IT會議上說:“政府實現預期目標的真正障礙不僅在于收集數據,更在于如何將數據轉化為切實可用的信息產品以及開發知識。”
“畢竟很多有能力提出好點子的人才分散在各個私有組織,他們也許會提出一些關于數據利用的優秀方案。”西克曼說,“分享我們的數據,并不只是為了追求所謂政府事務的透明度,這真的有可能以全新方式,讓我們產生并傳播的數據迸發出別樣的力量——而這一切在我們現有的規劃及有限的資源面前根本無法實現。”
丁剛毅說,他曾跟國內一些著名的互聯網公司接觸過,申請共享其數據,公司表示“給你一段可以,幾百個TB也好,幾個PB也可以,但連續的數據絕對不可以”。他認為,對于研究者,長期不斷、隨時隨地都可以接觸的數據,才是大數據。
“政府和行業共享數據應該是大數據的基礎,離開共享政策,根本就沒有大數據。”丁剛毅說。
大數據繁榮需共享+立法
中國人對大數據的關注并不晚。2012年7月,我國《“十二五”國家戰略性新興產業發展規劃》明確提出,要“加強以海量數據處理軟件等為代表的基礎軟件的開發”。2012年12月,中關村大數據產業聯盟宣布成立。
根據IT分析公司IDC預測,中國大數據技術與服務市場將快速增長到2016年的6.16億美元。但這一數額僅僅是世界市場的一個零頭。
網絡研究專家秦安在接受媒體訪問時表示,中國設立大數據機構從時間上看,似乎并不落后于美國,但大數據應用涉及整個以互聯網為核心的產業鏈,美國在大數據應用上的領先程度由思科、微軟、谷歌等跨國IT公司的實力所決定,恐怕中國幾十年內難以完全超越。
9月30日,中共中央政治局在中關村調研時,百度公司CEO李彥宏就宣講了大數據的題目。他認為大數據在兩方面最有價值,一是促進信息消費,加快經濟轉型升級;二是關注社會民生,帶動社會管理創新。李彥宏同時表示,國家層面要發展大數據,就要促進數據開放,扶持科研、培育人才。
這種“數據開放”的觀點,代表了中國大數據行業觀察者的共識。互聯網評論家葛甲指出:“數據開放在割據狀態的互聯網上靠企業的力量是完不成的,只有從政府層面去進行推動。現在做大數據的公司這么多,其實多數只有個殼子,沒有實際內容。大數據的基礎是巨量數據,不具備一定程度的數據量,是做不成的。于是,李彥宏提出了數據開放這個概念。”
葛甲認為,數據開放“這里面的難處,在于配套的管理制度和法律法規,政府的作用就是維護其公平性,堅決維護小企業的商業利益,扮演好管理者和仲裁者的角色,不要讓自身經濟利益牽涉其間”。
信息產業專家、中國工程院院士鄔賀銓今年在一篇名為《大數據時代的機遇與挑戰》的文章中也寫道:“中國人口居世界首位,將會成為產生數據量最多的國家,但我們對數據保存不夠重視,對存儲數據的利用率也不高。此外,我國一些部門和機構擁有大量數據卻不愿與其他部門共享,導致信息不完整或重復投資。政府應通過體制機制改革打破數據割據與封鎖。”
還有一位業界專家告訴記者,政府對大數據行業的扶持,除促進數據公開外,應采用購買服務的方式,而非越俎代庖,設立不必要的政府項目。
另外,鄔賀銓還指出應盡快制定《信息公開法》。“現在很多機構和企業擁有大量客戶信息。應當既鼓勵面向群體、服務社會的數據挖掘,又要防止侵犯個體隱私;既提倡數據共享,又要防止數據被濫用。”他認為,需要界定數據挖掘、利用的權限和范圍,防止信息被損壞、篡改、泄露或被竊,保護公民的信息安全。
“(大數據)標準和產業格局尚未形成,是我國實現跨越式發展的寶貴機會。”鄔賀銓說,“要注意科學規劃,切忌一哄而上。”