“當(dāng)前,大數(shù)據(jù)已成為社會熱潮。這股熱潮的主要驅(qū)動力來自網(wǎng)絡(luò)服務(wù)公司,各地政府投資大數(shù)據(jù)的主要目的則是增加GDP,但其實發(fā)展大數(shù)據(jù)的意義不僅僅體現(xiàn)在經(jīng)濟上。”日前,在清華大學(xué)舉行的大數(shù)據(jù)時代高端論壇上,中國工程院院士李國杰表示,發(fā)展大數(shù)據(jù)技術(shù)的另一個重要意義是促進社會公平正義,促進國家治理的現(xiàn)代化。“大數(shù)據(jù)的挖掘分析還能促進科學(xué)研究,尤其是基礎(chǔ)科學(xué)研究的發(fā)展。面對大數(shù)據(jù)浪潮,我們的科學(xué)研究也需要作出一定的調(diào)整。”
“大數(shù)據(jù)就如同蜜蜂,其主要價值是傳播花粉,自己生產(chǎn)的蜂蜜價值并不大。”李國杰介紹說,2013年世界范圍內(nèi)狹義的大數(shù)據(jù)產(chǎn)業(yè)產(chǎn)值只有186億美元,但廣義的大數(shù)據(jù)應(yīng)用幾乎覆蓋所有產(chǎn)業(yè)。據(jù)麥肯錫公司預(yù)測,開放數(shù)據(jù)僅在教育、保健等7個行業(yè)便可釋放3.2萬億~5.4萬億美元的經(jīng)濟價值。
然而,在李國杰看來,大數(shù)據(jù)對社會的貢獻并不僅限于經(jīng)濟領(lǐng)域。“大數(shù)據(jù)分析是認(rèn)識客觀世界的新工具,將開拓計算機科學(xué)的新領(lǐng)域——數(shù)據(jù)科學(xué),同時基于大數(shù)據(jù)分析的科學(xué)研究第四范式必將給全球科技發(fā)展帶來深刻影響。”
當(dāng)前,大數(shù)據(jù)的發(fā)展已給傳統(tǒng)計算機科學(xué)帶來挑戰(zhàn)。李國杰坦言,計算機科學(xué)是關(guān)于算法的科學(xué),傳統(tǒng)的圖靈計算把“輸出值”當(dāng)成“輸入值”的函數(shù),假定輸入的數(shù)據(jù)是隨意的,并不關(guān)心輸入數(shù)據(jù)之間的相互關(guān)系。然而,現(xiàn)在的研究發(fā)現(xiàn),其實輸入數(shù)據(jù)本身也是值得研究的對象。“這就是數(shù)據(jù)科學(xué)要研究的內(nèi)容。”
“在某些情況下,小數(shù)據(jù)條件下好的算法在大數(shù)據(jù)條件下可能不再適用。反過來,也有一些問題,數(shù)據(jù)多了反而更容易解決。大數(shù)據(jù)的興起導(dǎo)致計算機科學(xué)的重點從算法研究向數(shù)據(jù)科學(xué)轉(zhuǎn)移。”李國杰說,目前的大數(shù)據(jù)技術(shù)大多是針對專門應(yīng)用開發(fā)的,其實應(yīng)研發(fā)更加通用的大數(shù)據(jù)分析和管理技術(shù),發(fā)展像關(guān)系數(shù)據(jù)庫這樣的理論指導(dǎo)海量非結(jié)構(gòu)化Web數(shù)據(jù)的處理。
與此同時,越來越多的研究人員開始在數(shù)據(jù)不斷涌現(xiàn)的科學(xué)領(lǐng)域摸索,數(shù)據(jù)驅(qū)動型發(fā)現(xiàn)也將成為科研的主要形式,熟練應(yīng)付大數(shù)據(jù)將很快成為必備技能。對此,李國杰表示,伴隨著所有科學(xué)都迅速變成“數(shù)據(jù)科學(xué)”,需要在各領(lǐng)域培養(yǎng)既有專業(yè)知識又熟悉數(shù)據(jù)分析的人才,使之擁有分屬于不同領(lǐng)域的“雙腿”支撐前進。
此外,李國杰強調(diào),為順應(yīng)大數(shù)據(jù)時代潮流,我們需要重新構(gòu)建一張以大數(shù)據(jù)為基礎(chǔ)的“門捷列夫周期表”。
“‘門捷列夫周期表’的發(fā)現(xiàn),為化學(xué)成為一門獨立科學(xué)奠定了重要基礎(chǔ)。而在很多學(xué)科中,我們也需要對某些基本元素進行系統(tǒng)分析。”李國杰表示,目前生物領(lǐng)域有基因組學(xué),生理學(xué)、病理學(xué)、制藥、干細(xì)胞等領(lǐng)域都在研究“基因組”,也有人在討論人類語言的“基因組”,這些基因組其實都是構(gòu)成學(xué)科整體的基本元素。而發(fā)現(xiàn)這些“基因組”需要通過計算機對海量數(shù)據(jù)進行分析,這導(dǎo)致各學(xué)科領(lǐng)域紛紛出現(xiàn)“某某信息學(xué)”的分支學(xué)科,凸顯了大數(shù)據(jù)在許多學(xué)科中的基礎(chǔ)性作用。
“從上世紀(jì)70年代開始,圍繞計算復(fù)雜性,已形成了以算法研究為中心的計算機科學(xué)。但隨著計算機科學(xué)與其他科學(xué)的交叉融合,其研究重點將逐步轉(zhuǎn)移到以研究各種基因組學(xué)為重點的數(shù)據(jù)科學(xué)。從這個角度來說,現(xiàn)在已經(jīng)到了發(fā)現(xiàn)一張新的‘門捷列夫周期表’的時候了。”李國杰說。