全球大數據市場將在未來5年出現高增長。有研究顯示,年均復合增長率26%。隨著超過40%的美國企業向大數據注資,政府加大投入,美國大數據市場在全球將走在了前列,了解美國的大數據研發體制,對我們的借鑒意義不言而喻。
六大機構參與大數據研發
2012年3月,美國政府公布了大數據舉措,希望通過這些舉措,使用大數據解決政府面臨的重大問題。這一舉措由84個不同的大數據項目組成,用于研發的資金2億美元(1年),參與的美國聯邦機構有6個。
美國科學基金為大數據研發的投入資金為7300萬美元,其中3個項目1340萬,包括:與加州大學柏克利分校AMPLab實驗室合作的,為期5年的“計算探索”項目,研發資金1000萬美元。投資200萬美元用于研究相關培訓,主要是支持面向復雜數據的圖像和可視技術的本科培訓;為統計家和生物學家研究組提供140萬美元的資金,用于結構保護和生物路徑的研究。
國防部是大數據研發的重要部門,用于大數據的投資每年近2.5億,其中6000萬用于新項目研究。國防部高級研究項目機構(Defense Advanced Research Projects Agency,簡稱DARPA)啟動了XDATA項目,年投資2500萬美元,將用4年時間完成分析大規模數據的計算技術和軟件工具開發。國防部采用新方法使用大數據,將傳感、感知和決策支持系統結合在一起,使自主系統真實實現自主操作和決策。幫助飛行員和分析家改善態勢感知,為戰機運行提供更多支持。國防部還希望對使用各種語言的文本信息的分析能力增加100倍以上。使分析家觀察到的目標、活動和事件的數量增加100倍。
能源部獲得了2500萬美元的資金,用于建立可擴展的數據管理、分析和可視化研究院(簡稱SDAV),這一學院由能源部所屬的勞倫斯柏克利國家實驗室牽頭。SDAV的目標是集合6家國家實驗室和7所大家的專家,開發新的工具,支持科學家對能源部超級計算機的管理和實現數據的可視化。
美國地理調查局與John.Wesley Powell中心聯合宣布了最新的獎勵基金,通過為科學家提供分析的場地和時間、計算能力促進系統的研究。這一研究有助于更好地應對氣候變化、地震恢復、下一代生態指標的研究。但沒有給出具體的資金數。
國家科學基金和國立衛生研究所的主要工作是支持核心科學和技術手段研發,包括對大量和差異化的數據進行管理、分析、可視化和提取。加快科學發現。國立衛生研究院側重于成像、分子、移動、電生物學、化學、行為、流行病學、診所等相關健康和疾病數據。
國立衛生研究院擁有全球最大的人類遺傳變異數據集,這一數據集被放在亞馬遜網站服務云端,研究人員只需支付計算服務費,就可使用這些數據開展相關研究。
研發側重各不相同
一方面,在研發投入上,各個機構有著不同的資金分配;另一方面,參與大數據的聯邦機構的研發側重點各不相同。
國家科技基金和國立衛生研究院聯合研發的側重點是核心技術、先進的大數據科學、工程技術。
國家科學基金研發的側重點是開展基礎研究,制定綜合和長期戰略,包括數據獲取、基礎設施管理、社區使用數據的新方法,以及教育和勞動力開發新方法。
能源部的研發側重點是通過使用先進的計算技術,實現科學發現;國防部的研發側重點則是數據決策。
美國國立衛生研究院的研發側重點—1000基因組項目云計算的數據使用。而美國地質調查局研發的側重點—地球系統科學的大數據。
此外,美國大數據舉措的重點領域有三個:一、開展核心技術研發,開發能對大量數據進行收集、存儲、維護、管理、分析和共享的最先進的核心技術;二、利用大數據技術加快科學和工程學領域的探索;三、加快數據技術領域的人才培養和儲備。
業界廣泛參與,相互合作加強
在政府層面,除聯邦政府大規模開展大數據研發外,州政府也有自己的大數據發展規劃,比如:2012年,美國馬薩諸塞州就宣布了本州的大數據舉措,由州政府和私人企業共同投資,由相關研究機構開展大數據研發。
美國工業界也加大了數據管理和分析的投入,比如: Software AG、 Oracle Corporation、IBM, FICO、 Microsoft、SAP、 EMC HP和Dell。2010年,業界在此領域的投入超過1000億,每年投入增長在10%左右。EMC、HP、IBM、Microsoft等公司,通過收購大數據相關企業,以實現技術融合。此外,很多大學一方面加大相關技術研發,另一方面積極開展相關人才培養,以備未來之用。
非盈利機構也利用大數據提供公共服務,例如:“數據無界”通過無償數據收集、分析,以及可視化,為非營利機構提供幫助。
除業界的廣泛參與外,這些機構間的廣泛合作,也為大數據的研發提供了很好的土壤和空間。例如:為了使美國的制造業更具競爭力,國家科學基金已向辛辛納提大學的智能維護系統合作研究投資,開發可用于大數據環境的、先進的預測工具和技術。