最近,十多位院士向高層建議,我國應制定大數據國家戰略,并在發展目標、發展原則、關鍵技術等方面作出頂層設計。與此同時,國家發改委與中科院正在啟動“基礎研究大數據服務平臺應用示范項目”。權威人士透露,有關部門正在積極研究,大數據國家戰略或將提上議程。
多位院士的建議方案認為,所要制定的大數據國家戰略是國家層面的頂層規劃。其主要內容包括:構建大數據研究平臺,整合創新資源,實施“專項計劃”,突破關鍵技術;構建大數據良性生態環境,制定支持政策,形成行業聯盟,制定行業標準;構建大數據產業鏈,促進創新鏈與產業鏈有效嫁接。
什么是大數據
舍恩伯格在《大數據時代》中對大數據的定義簡潔而清晰:所謂大數據就是大量的數據。那么,究竟多少數據才稱得上“大量”呢?日本野村綜合研究所的分析師城田真琴在《大數據的沖擊》一書中對大數據的表述是:用現有的一般技術難以管理的大量數據的集合。可見,當數據量達到“現有一般技術難以管理”時,它們就足夠“大”了。所謂“用現有的一般技術難以管理”,舉例來說,就是用目前在企業數據庫占主流地位的關系型數據庫無法進行管理、具有復雜結構的數據。
更確切地說,幾帕字節(10^15)到幾埃字節(10^18)的數據量才可謂“大”。當然,從多樣性的角度來說,除了傳統的銷售、庫存數據,現在企業所采集和分析的數據還包括網站的日志數據、呼叫中心通話記錄、微博等社交媒體中的文本數據、智能手機內置GPS所產生的位置信息,甚至還有圖片和視頻。另外,數據產生和更新的頻率,也是衡量大數據的一個重要特征。例如,日本全國公路上安裝的交通堵塞探測器和路面狀況傳感器每時每刻都在產生著龐大的數據,波音客機的引擎每秒也產生數個GB的數據。
大數據國家戰略的驅動力
人、 機、 物三元世界的高度融合引發了數據規模的爆炸式增長和數據模式的高度復雜化,世界已進入了網絡化的大數據(Big Data)時代。以數據為中心的傳統學科(如基因組學、 蛋白組學,天體物理學和腦科學等)的研究產生了越來越多的數據。此前,美國政府認為,大數據是“未來的新石油”,并將對大數據的研究上升為國家意志,這一定程度上對我國制定大數據國家戰略產生推動力量。
據著名咨詢公司IDC的統計,2011年全球被創建和復制的數據總量為1.8ZB(10的21次方),其中75%來自于個人(主要是圖片、 視頻和音樂),遠遠超過人類有史以來所有印刷材料的數據總量(200PB) 。傳感網和物聯網的蓬勃發展是大數據的又一推動力,各個城市的視頻監控每時每刻都在采集巨量的流媒體數據。工業設備的監控也是大數據的重要來源。例如,勞斯萊斯公司對全世界數以萬計的飛機引擎進行實時監控, 每年傳送PB數量級的數據。
大數據科學作為一個新興的交叉學科方向,其共性理論基礎將來自多個不同的學科領域,包括計算機科學、 統計學、 人工智能、 社會科學等。因此,將來推出一個國家科技和產業專項來引導和支持大數據的研究和產業發展,也會對相關學科的領域知識與研究方法論產生推動作用。
大數據應用前景
大數據專項研究的重點任務主要有布局關鍵技術、推進示范應用、完善支持政策等三方面,其中最關鍵的是應用。
大數據最大的應用之一是預測。大家都對航班晚點痛苦不已,怎么才能提前知道我訂的航班是否會晚點呢?FlightCaster網站可以讓你提前知道航班的晚點概率。這家美國公司的預報是基于交通統計局、聯邦航空局交通管制中心警報、美國氣象局和FlightStats(一個航班運行狀況信息的網站)的數據而發布的。FlightCaster能在航空公司正式發布晚點信息前6小時告訴你,你乘坐的航班“正點概率只有3%,輕微晚點概率14%,晚點一個鐘頭以上的概率是83%”。
這家網站所采用的是過去十年上述單位保存的龐大統計數據,通過人工智能分析,得出準確率高達90%的預測。至于過去十年數據和未來某次航班是否晚點之間有何因果關系,暫時并不能解釋清楚——這便是大數據的另外一個特征:用相關關系取代因果關系。
對個人用戶而言,大數據還可以預測機票價格走勢,為自費旅游者省錢;預測交通擁堵情況,幫助人們選擇更好的時段和路線節省出行時間;也可以像亞馬遜那樣,為你提供更準確的書單,幫你發現更多好書。谷歌還通過分析用戶的搜索關鍵詞,預測出了2009年禽流感在美國本土的嚴重程度以及未來的流行趨勢,成功幫助衛生部門抑制住了疾病的大規模爆發。
現代商業環境變化十分劇烈,對于企業,在大數據時代做好準備,利用好大數據尤為重要。如著名文具制造商萬寶龍,通過分析監控攝像機的數據,將最想賣出去的商品擺到最容易吸引顧客目光的位置,使得銷售量提高了20%。開源分析機構Wikibon預計,2012年全球大數據企業營收為50億美元,未來5年的市場復合年增長率將達到58%,2017年將達到500億美元。
通過運用過去無法獲取的數據來催生新的服務,這才是人們對未來大數據時代的最大期望。