大數據研究需要倡導“大平臺,大聯合,大合作”。
大數據的應用已滲透到各個行業,因此大數據的研究一定要依托于某一特定領域和特定行業。搞計算機研究的學者們要放下身段,甘當配角,老老實實為具體領域的從業者們提供幫助。
連日來,2012年美國總統大選成為信息技術領域大數據研究者們最愛探討的話題。
與此前的歷屆選舉不同,此次大選伊始,美國總統的競選團隊就紛紛利用數據分析方法來尋找和鎖定潛在的己方選民,并使用最前沿的數字化策略定位并拉攏那些中間派選民。整個過程中,大數據應用的威力可謂發揮得淋漓盡致。
可以想見的是,無論四年一度的美國總統大選投票日(11月6日)之后結果如何,本已位居2012信息技術時髦詞匯榜首的大數據,熱度還將繼續攀升。
不過,與外行們的看熱鬧不同,大數據的研究者們更關心的,則是這一事件體現出的大數據的“大”問題。
“大”數據
每天要處理25億條消息、500多TB的數據、上傳3億張照片、每半個小時掃描的數據大約為105TB……一說到大數據,人們首先想到的便是以社交網絡Facebook為代表所產生的大量數據。
在近日由中國計算機學會(CCF)主辦、大連大學承辦的2012中國計算機大會上,中國工程院院士李國杰在談及大數據的定義時,也開明宗義地說到了上述數據所體現出的四個“V”,即體量巨大(Volume)、數據類型多樣(Variety)、價值大但密度低(Value)以及處理速度快(Velocity)等特點。
在當天的大會論壇上,加拿大西安大略大學教授凌曉峰表示,信息技術正在以一種難以置信的速度發展,表現之一就是數據的成倍增長。
如何在信息技術發展的大背景下理解大數據因何為“大”?李國杰告訴《中國科學報》記者,信息技術的發展使得信息采集的成本大大降低,這是數據快速增長的主要原因。根據數據的來源,大數據大略可以分為兩類:一類來自物理世界,如天文、生物等研究領域;另一類則來自人類社會,特別是與互聯網有關。以腦科學為例,用電子顯微鏡重建大腦中的突觸網絡,1立方毫米大腦的圖像數據就超過了1PB。
“有了大量的數據,自然就要挖掘其價值。大數據的出現可以說是自然而然、水到渠成的。”李國杰說。
然而,在信息技術領域,數據分析的歷史遠遠要比大數據長。以上世紀90年代中期興起的數據挖掘技術為例,該技術的宗旨就是發現數據中有用的模式,并以之解釋當前的行為或預測未來的結果,提供有用的決策信息。
數據挖掘是如何演變為大數據的呢?香港中文大學常務副校長華云生認為,這主要是由于隨著信息技術的發展,挖掘數據價值的速度大大慢于數據產生的速度。在數據量越來越大,數據變化又很快的情況下,就誕生了大數據,即要在固定的時間內找到所需信息的價值。
“大數據的‘大’是相對的。”美國羅格斯—新澤西州立大學教授熊輝認為。他舉例說,10MB的數據量并不大,但要在1毫秒之內對10MB數據完成復雜的數據挖掘分析,可能就會超越目前常用設備的數據處理能力。因此,大數據的“大”只是相對的概念,不只是量大,而且對處理的速度也提出了苛刻的要求。
“大” 應用
“目前推動大數據研究的動力主要來自企業的經濟效益。”李國杰告訴記者,巨大的經濟利益驅使大企業不斷擴大數據處理規模,IBM、甲骨文、微軟、谷歌、亞馬遜、Facebook等跨國巨頭是發展大數據處理技術的主要推動者。
而在金蝶國際軟件集團有限公司首席科學家、高級副總裁張良杰博士看來,大數據在企業中的應用主要有三個模式。一類是最早的沃爾瑪和Visa模式,例如沃爾瑪之所以將某些商品放置在一起,就是基于數據分析的結果。其次是互聯網企業對用戶消費行為進行分析,進而更精準地投放廣告。數據顯示,eBay通過數據分析技術可以精確計算出廣告中的每一個關鍵字為公司帶來的回報。通過對廣告投放的優化,2007年以來eBay產品銷售的廣告費降低了99%,而頂級賣家占總銷售額的百分比卻上升至32%。
第三種則是把大數據的分析能力放在“云”里,通過數據共享的方式,實現眾包服務。對此,張良杰舉例說,6000家公司為了解決同一問題,每家公司都需要提供6個分析師。而一家128人的小公司利用云存儲和云計算,就可以通過眾包的模式接受來自這6000家公司的外包服務,并解決其問題。
“從公司內部的數據挖掘,到互聯網公司的消費行為分析,再到分布式眾包模式,大數據的應用處于不斷演進的過程中。”張良杰說。
熊輝1999年開始介入對數據挖掘應用的研究。近年來,他與七八家企業在不同領域進行了大數據方面的合作。他的心得是,“大數據應用已如水銀瀉地,無孔不入”。
“大”平臺
正因為大數據的應用已滲透到各個行業,因此,業內專家們已達成共識,大數據的研究一定要依托于某一特定領域和特定行業才能作出貢獻。
張良杰舉例說,一家美國公司把氣象數據放在亞馬遜的“云”平臺上進行處理,以及時提供氣象預報的方式保證當地的農牧業主在特定的地區以及特定的季節不會遭受天氣災害,并由此獲得了豐厚的利潤。
華云生也認為,解決的問題和目的都不太明確是大數據最困難的地方。以美國總統大選為例,要預測哪些問題,如何預測,都需要與實際的用戶相結合。
因此,李國杰呼吁,大數據研究需要倡導“大平臺,大聯合,大合作”。“搞計算機研究的學者們要放下身段,甘當配角,老老實實地為具體領域的從業者們提供幫助。”
李國杰指出,企業對大數據的關注只是著眼于對相關性的研究,可以說是只看現象,不看其背后更深層次的規律。作為一名科學家,則不能止步于此,而是要從各領域具體的技術問題出發,進而發現其背后的科學問題。
2007年,已故的圖靈獎得主吉姆·格雷在他最后一次演講中描繪了數據密集型科研“第四范式”的愿景。他之所以將大數據科研從第三范式(計算機模擬)中分離出來單獨作為一種科研范式,是因為其研究方式不同于基于數學模型的傳統研究方式。李國杰認為,科研第四范式不僅是科研方式的轉變,也是人們思維方式的大變化。
正是看到了大數據對于科學研究的重要意義,作為國內計算機及相關領域專業學術團體CCF的名譽理事長,李國杰擔任了CCF大數據專家委員會的主任。
10月20日,聚合了學界、工業界和海外專家的CCF大數據專家委員會在中國計算機大會上舉行了正式的成立儀式。李國杰表示,該委員會成立的主要目的,就是為了發現大數據的核心問題,推動大數據的學科發展,并打造產學研用的平臺,促進大數據產業的良性發展。