所謂大數(shù)據(jù),它是信息化到一定階段之后,必然出現(xiàn)的一個(gè)現(xiàn)象,主要是由于信息技術(shù)的不斷廉價(jià)化,以及互聯(lián)網(wǎng)及其延伸所帶來的無處不在的信息技術(shù)應(yīng)用所帶來的自然現(xiàn)象。基本上,大數(shù)據(jù)有四個(gè)驅(qū)動(dòng)力,即摩爾定律所驅(qū)動(dòng)的指數(shù)增長模式;技術(shù)低成本化驅(qū)動(dòng)的萬物的數(shù)字化;寬帶移動(dòng)泛在互聯(lián)驅(qū)動(dòng)的人機(jī)物廣聯(lián)連接;云計(jì)算模式驅(qū)動(dòng)的數(shù)據(jù)大規(guī)模的匯聚。
當(dāng)前,大數(shù)據(jù)開啟了信息化的第三波浪潮。如果我們回顧來看,大體上能夠看到兩個(gè)明顯的階段的劃分,一個(gè)是從PC機(jī)開始進(jìn)入市場以來,帶來了信息化的第一撥浪潮,這個(gè)浪潮差不多到90年代中期,這個(gè)時(shí)候的主要特征是單機(jī)應(yīng)用為特征的數(shù)字化。過去的20年來,從90年代中期到現(xiàn)在,是以聯(lián)網(wǎng)應(yīng)用為特征的網(wǎng)絡(luò)化。現(xiàn)在我們正在進(jìn)入新的階段,即以數(shù)據(jù)的深度挖掘和融合應(yīng)用為特征的智慧化。
那么,到底什么才是大數(shù)據(jù)呢?這個(gè)定義可以從兩個(gè)角度來談。從技術(shù)能力的視角來說,大數(shù)據(jù)指的是規(guī)模超過現(xiàn)有數(shù)據(jù)庫工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集,并同時(shí)強(qiáng)調(diào)并不是超過某個(gè)特定數(shù)量級(jí)的數(shù)據(jù)集才是大數(shù)據(jù)。
從數(shù)據(jù)內(nèi)涵的視角來說,大數(shù)據(jù)是具備海量、高速、多樣、可變等特征的多維數(shù)據(jù)集,需要通過可伸縮的體系結(jié)構(gòu)實(shí)現(xiàn)高度的存儲(chǔ)、處理和分析。
那么,大數(shù)據(jù)給我們帶來什么樣的挑戰(zhàn)呢?我覺得最重要的東西,可能帶來的是思維模式的變化。通過大數(shù)據(jù),我們能夠認(rèn)識(shí)復(fù)雜系統(tǒng)的新思維,促進(jìn)經(jīng)濟(jì)轉(zhuǎn)型,提升國家綜合能力保障國家安全,提升政府的治理能力以及服務(wù)民生服務(wù)社會(huì)的能力。
就我個(gè)人覺得,目前來講,大數(shù)據(jù)開始還處在炒作的階段,至少在我國炒作的熱潮還沒有過去,真正的大數(shù)據(jù)應(yīng)用應(yīng)該體現(xiàn)在數(shù)據(jù)挖掘的深度。
這是為什么呢?原因有三點(diǎn):首先有我們當(dāng)前對(duì)數(shù)據(jù)認(rèn)識(shí)不到位的原因,還有在當(dāng)今的情況下一宣傳大家都對(duì)大數(shù)據(jù)很熱衷,使其成為獲取資源的一個(gè)途徑。第二個(gè),是大數(shù)據(jù)投入過熱,資源的浪費(fèi)比較明顯,這方面的投入特別是數(shù)據(jù)中心的投入為典。
第三個(gè),就是我們認(rèn)為大數(shù)據(jù)的理論和技術(shù)都還處于發(fā)展的早期,盡管對(duì)大數(shù)據(jù)的定義已經(jīng)有了共識(shí),但是對(duì)它的核心觀點(diǎn)和命題還是有很多爭議的,比如說大和小到底怎么來定義等等。此外,從我們做計(jì)算領(lǐng)域研究的人來講,總是希望能夠?yàn)閿?shù)據(jù)的處理方式提供一種手段,但當(dāng)前數(shù)據(jù)科學(xué)的理論基礎(chǔ)還沒有,很多數(shù)據(jù)分析的結(jié)論基本上缺少因果,缺少理論知識(shí),都是靠關(guān)聯(lián)關(guān)系建立起來的。此外,大數(shù)據(jù)這個(gè)現(xiàn)象可能會(huì)長期的存在,對(duì)我們計(jì)算能力的挑戰(zhàn)也是永恒的。(本報(bào)記者彭科峰整理)