2015年4月8日上午,青島大數(shù)據(jù)工程研究中心揭牌儀式暨青島大數(shù)據(jù)高峰論壇召開,清華大學(xué)數(shù)據(jù)科學(xué)研究院首席科學(xué)家,國(guó)家973首席科學(xué)家,清華大學(xué)計(jì)算機(jī)系副主任朱文武做了題為《大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)》的演講,
以下為演講實(shí)錄。
今天這個(gè)時(shí)代非常特別,現(xiàn)在處于人機(jī)物的時(shí)代,我在因特爾,微軟工作過,無所不在的計(jì)算成為了可能,芯片的尺寸和價(jià)格在18個(gè)月左右降低一倍,這使得設(shè)備的小型化,帶來了設(shè)備的無所不在。同時(shí)把這個(gè)設(shè)備和這種連起來這種網(wǎng)絡(luò),網(wǎng)絡(luò)的增長(zhǎng)速度每六個(gè)月增長(zhǎng)一倍,這樣把網(wǎng)絡(luò)的各種設(shè)備和人聯(lián)系起來,所以這種設(shè)備的無所不在和網(wǎng)絡(luò)的無所不在和計(jì)算的無所不在,導(dǎo)致了數(shù)據(jù)產(chǎn)生的速度發(fā)生了爆炸性的增長(zhǎng)。
從大數(shù)據(jù)的產(chǎn)生來看,他記錄了我們從一部分?jǐn)?shù)據(jù)會(huì)來自于互聯(lián)網(wǎng)世界,一部分是網(wǎng)絡(luò)世界,一部分是物理世界,一部分來自于人,通過社交網(wǎng)絡(luò)記錄人的行為。大家知道這個(gè)互聯(lián)網(wǎng)的話,能把我們所有的人和設(shè)備聯(lián)系起來,使得我們能夠記錄我們?cè)谔摂M世界很多數(shù)據(jù)。比如說每天百度會(huì)產(chǎn)生300PB的數(shù)據(jù)要處理,臉書有10億用戶。大量的互聯(lián)網(wǎng)信息產(chǎn)生了非常大的數(shù)據(jù)需要進(jìn)行處理,同時(shí)的話,物聯(lián)網(wǎng)就是各種各樣的傳感器,濕度、溫度可以記錄物理世界人的發(fā)展一條主線是物理世界,大自然,一是人的活動(dòng)。
現(xiàn)在應(yīng)用最多是GPS數(shù)據(jù)全世界有40億的GPS在采集數(shù)據(jù),我們?nèi)祟惖淖阚E也開始記錄了,原來人類活動(dòng)不太容易被網(wǎng)絡(luò)給記錄,記錄什么呢?記錄我們的行為,我們對(duì)這個(gè)信息的這個(gè)喜歡程度、偏愛程度、對(duì)在情緒的體現(xiàn),而且它這個(gè)社交網(wǎng)絡(luò)的特點(diǎn),他有個(gè)傳播功能,這你的情感也會(huì)影響你周圍的人,所有的行為互相也感染。社交媒體讓所有的事情傳播的非常快。
現(xiàn)在隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的發(fā)展,預(yù)計(jì)2020年我們可以有40ZB可以記錄的數(shù)據(jù)。2012年的世界經(jīng)濟(jì)論壇,有一份《大數(shù)據(jù)、大影響》的報(bào)告,數(shù)據(jù)已經(jīng)成為經(jīng)濟(jì)資產(chǎn),2012年美國(guó)政府六個(gè)部門,啟動(dòng)了大數(shù)據(jù)的項(xiàng)目,他是強(qiáng)調(diào)學(xué)術(shù)界、工業(yè)界、產(chǎn)業(yè)界聯(lián)合發(fā)展的模式,目標(biāo)是在數(shù)據(jù)里面找到他的價(jià)值。
隨著大數(shù)據(jù)剛剛開始,美國(guó)開始做一個(gè)報(bào)告,美國(guó)一直在爭(zhēng)奪中東的石油,他用石油來描述他對(duì)大數(shù)據(jù)的喜歡程度,開始的時(shí)候數(shù)據(jù)是在金融、醫(yī)療、制造管理。比如公共管理取得2500億的利潤(rùn),醫(yī)療是3000億,來宣傳大數(shù)據(jù)的價(jià)值。
大數(shù)據(jù)它所具有的影響力,他的模式也不一樣,它也影響我們國(guó)家的安全,帶動(dòng)了新的經(jīng)濟(jì)增長(zhǎng)點(diǎn),比如說數(shù)據(jù)相關(guān)的產(chǎn)業(yè)的發(fā)展,同時(shí)為各行各業(yè)帶來了一些滲透。
個(gè)大數(shù)據(jù)是繼互聯(lián)網(wǎng)以后,能滲透勞動(dòng)各行各業(yè)的一個(gè)技術(shù),在美國(guó)的時(shí)候,任何傳統(tǒng)企業(yè),只要沾上互聯(lián)網(wǎng)幾個(gè)字,股票都飛漲,今天大數(shù)據(jù)有這個(gè)能力和滲透力,它除了傳統(tǒng)的行業(yè),這里面提到了金融、智慧城市、材料、醫(yī)療等等數(shù)據(jù)之外,還產(chǎn)生了新的新型的產(chǎn)業(yè),比如說數(shù)據(jù)材料,比如說數(shù)據(jù)制藥、數(shù)據(jù)醫(yī)療,怎么從數(shù)據(jù)中發(fā)現(xiàn)新的規(guī)律。除了傳統(tǒng)行業(yè)之外還會(huì)產(chǎn)生新的新興行業(yè)和新的增長(zhǎng)點(diǎn)。
大數(shù)據(jù)給我們帶來變革的同時(shí),使我們的思想方式產(chǎn)生了變化,企業(yè)原來關(guān)注生產(chǎn)規(guī)模和能力,除了原來傳統(tǒng)的信息化的過程,互聯(lián)網(wǎng)信息化的過程,現(xiàn)在更強(qiáng)調(diào)這個(gè)企業(yè)對(duì)于這個(gè)數(shù)據(jù)資源的分析能力和掌控能力等等,這樣的話給我們帶來了一些企業(yè)的,新的挑戰(zhàn)。
這是美國(guó)CEO要讀的東西,我是在2012年參加大數(shù)據(jù)論壇的時(shí)候看到的書,這里面主要一個(gè)點(diǎn)就是,原來可能整個(gè)會(huì)整個(gè)行業(yè)需求的是計(jì)算機(jī)編程人員,數(shù)據(jù)科學(xué)家數(shù)據(jù)工程師,這樣能讓他從中分析數(shù)據(jù),從數(shù)據(jù)中尋找價(jià)值。我去年到臉書,到谷歌訪問,他們公司里面就有這種職業(yè)了,這樣的話大家對(duì)于數(shù)據(jù)分析師,數(shù)據(jù)科學(xué)家的需求,將來的增長(zhǎng)會(huì)非常快。
整個(gè)學(xué)術(shù)界討論最多的是,大數(shù)據(jù)是不是科學(xué)?
我們從科學(xué)的發(fā)展范式來考慮這個(gè)問題,整個(gè)一個(gè)人在觀察大自己的現(xiàn)象,他從自然里面去體現(xiàn)規(guī)律,這里面有很多現(xiàn)象,比如說牛頓發(fā)現(xiàn)萬有引力,這里面大家是通過做實(shí)驗(yàn),是跟自然打交道,這就產(chǎn)生了當(dāng)時(shí)的實(shí)驗(yàn)科學(xué),這是第一個(gè)科學(xué)范式。
后來人們通過歸納,能夠用數(shù)據(jù)建立模型,出現(xiàn)了理論科學(xué),至少能夠把它描述成一些方程等等,這樣的話,理論科學(xué)產(chǎn)生能讓我們對(duì)自然描述往前走了一步。
大概就是隨著幾十年前,隨著三極管的發(fā)明,開拓了整個(gè)信息行業(yè)。這樣的話給我們帶來了一個(gè),由于這個(gè)芯片的發(fā)明,計(jì)算機(jī)的發(fā)明,對(duì)數(shù)據(jù)模型技術(shù)計(jì)算,出現(xiàn)了計(jì)算科學(xué)。因?yàn)樵瓉淼脑捵霾坏降氖虑椋热缯f要探索宇宙等等沒法做到,通過計(jì)算機(jī)的仿真可以做到,原來很復(fù)雜的公式可以用計(jì)算機(jī)來計(jì)算。可以通過建模去仿真科學(xué)計(jì)算。
數(shù)據(jù)出現(xiàn)這么多以后,人們開始想,數(shù)據(jù)到底是不是科學(xué),人要從數(shù)據(jù)中尋找規(guī)律,原來是從自然中尋找規(guī)律,在尋找規(guī)律的時(shí)候要交叉,我們需要懂得這個(gè)行業(yè)的人,和搞計(jì)算科學(xué)的人交叉融合一起來分析,呈現(xiàn)了交叉的特點(diǎn)。這里我舉了一個(gè)例子,是社會(huì)科學(xué)和計(jì)算科學(xué)的交叉,原來我們搞計(jì)算科學(xué)的人是拿了社會(huì)科學(xué)的模型假設(shè),進(jìn)行一些模型分析,現(xiàn)在我們從數(shù)據(jù)型的方法來進(jìn)行分析,找這種里面的規(guī)律,找到規(guī)律之后的話,再用社會(huì)化作為一個(gè)驗(yàn)證,是社會(huì)科學(xué)和數(shù)據(jù)科學(xué)的交叉。從數(shù)據(jù)中找到我們的規(guī)律,也能找到我們的價(jià)值所在。
根本的變化是從計(jì)算科學(xué),計(jì)算是以模型為驅(qū)動(dòng),決策是根據(jù)經(jīng)驗(yàn),到了數(shù)據(jù)科學(xué)都是以數(shù)據(jù)驅(qū)動(dòng)來做,也是數(shù)據(jù)驅(qū)動(dòng)來決策。
大數(shù)據(jù)的特點(diǎn)是五個(gè)V,第一是數(shù)據(jù)量非常大,第二是數(shù)據(jù)的種類非常多,多模易構(gòu),這個(gè)數(shù)據(jù)里面有語音、文本、圖片、視頻等等,這樣的話給處理帶來了很多挑戰(zhàn)。數(shù)據(jù)的變化很快,傳播特性造成了數(shù)據(jù)的變化,時(shí)時(shí)性時(shí)效性,金融數(shù)據(jù)瞬間的變化導(dǎo)致了多少資金的流失。數(shù)據(jù)又非常大,這樣一個(gè)矛盾非常難以解決。第四個(gè)挑戰(zhàn)是數(shù)據(jù)真實(shí)性和可靠性,最難的東西是現(xiàn)在拿到很多數(shù)據(jù),是不是越多越好,怎么從數(shù)據(jù)中提煉出來也是一個(gè)挑戰(zhàn)。另外一個(gè)挑戰(zhàn)是傳統(tǒng)的互聯(lián)網(wǎng)的共識(shí),在互聯(lián)網(wǎng)里面沒有人知道你的真實(shí)的身份,數(shù)據(jù)如果不真實(shí),如果有噪聲,有欺騙行為的數(shù)據(jù),導(dǎo)致你的分析走向錯(cuò)誤的方面。所以這個(gè)給我們的分析帶來很多挑戰(zhàn)。
第一個(gè)挑戰(zhàn)就是非結(jié)構(gòu)性的挑戰(zhàn),原來我們搞數(shù)據(jù)庫(kù)的時(shí)候是鏈表,從一千個(gè),到10萬個(gè),是一個(gè)復(fù)制的命令,都能做了,非結(jié)構(gòu)化數(shù)據(jù)是有文本、有照片、有語音、還有視頻等等,這種當(dāng)你量大的時(shí)候,簡(jiǎn)單的做不到,需要對(duì)文本數(shù)據(jù)進(jìn)行分析,這些攝象頭數(shù)據(jù)基本都是非結(jié)構(gòu)化數(shù)據(jù),做不到人工的讀,人工的標(biāo)識(shí),數(shù)據(jù)多了用不了怎么樣把它作為結(jié)構(gòu)化數(shù)據(jù)放起來才可以用。
第二個(gè)挑戰(zhàn)就是數(shù)據(jù)不是越多越好,它本身有復(fù)雜性,微觀上它是一個(gè)混沌的現(xiàn)象,宏觀上又要找規(guī)律,怎么樣發(fā)現(xiàn)有限的現(xiàn)象,每一個(gè)都不一樣,但是你要找到宏觀的規(guī)律,這樣對(duì)我們的挑戰(zhàn)很大,我們分析是為了理解,理解是為了認(rèn)知,也是一種挑戰(zhàn),人工智能是一種方法,中國(guó)計(jì)算等等,很多技術(shù)在探討之中,怎么從數(shù)據(jù)中挖掘到知識(shí)。結(jié)構(gòu)化之后很重要的是對(duì)數(shù)據(jù)的理解和認(rèn)知。
第三個(gè)是對(duì)數(shù)據(jù)量大之后,對(duì)實(shí)時(shí)性和時(shí)效性有很大的挑戰(zhàn)性,北京市各大公司引進(jìn)的頂尖人才都在系統(tǒng)之內(nèi),比如像美國(guó)谷歌可以達(dá)到全球的規(guī)模,這樣導(dǎo)致我們搞算法的人,需要考慮數(shù)據(jù)的這種計(jì)算算法的這種迭代式計(jì)算。像我們炒菜不知道什么時(shí)候嘗一嘗是一樣的道理。
還有一個(gè)挑戰(zhàn)是系統(tǒng)方面的挑戰(zhàn),原來數(shù)據(jù)的話,數(shù)據(jù)產(chǎn)生是分布局部的,我們今天先建立了云,迫使我們的運(yùn)算不是在局部產(chǎn)生,網(wǎng)絡(luò)的開銷非常大,它的設(shè)計(jì)它也不是為了真正的支持大數(shù)據(jù)的計(jì)算。這樣的話怎么樣聯(lián)合優(yōu)化存儲(chǔ),還有計(jì)算,還有網(wǎng)絡(luò)通訊,產(chǎn)生新的大數(shù)據(jù)的系統(tǒng),這也是一個(gè)學(xué)術(shù)界大家討論的一個(gè)問題。
大數(shù)據(jù)的特點(diǎn),它需要兩方面人才,一個(gè)方面是需要行業(yè)懂你行業(yè)的人,也需要懂你計(jì)算算法的人,這樣的話整個(gè)的特點(diǎn)是應(yīng)用為導(dǎo)向,像我們大數(shù)據(jù)研究院也是在我們清華的時(shí)候,明顯是需求,這個(gè)算法是要實(shí)時(shí),但是并沒有革命性的變化,但是對(duì)應(yīng)用需求的變化非常大,原來是小樣板的,現(xiàn)在是大數(shù)據(jù)整個(gè)思維方式都變了。這種交叉的特點(diǎn),應(yīng)用需求,從計(jì)算領(lǐng)域需要我們存儲(chǔ)計(jì)算來支持我們的交叉和需求。
到底大數(shù)據(jù)方法和傳統(tǒng)什么不同,大數(shù)據(jù)告訴我們,現(xiàn)在數(shù)據(jù)非常大,而且是多元異構(gòu)的特點(diǎn),第一點(diǎn)我們說有沒有數(shù)據(jù)?這是第一步給你數(shù)據(jù),給你數(shù)據(jù)之后,它有噪聲,你怎么進(jìn)行處理?從理念上來看,大數(shù)據(jù)和原來的傳統(tǒng)不一樣,傳統(tǒng)都是因果推斷,因?yàn)锳導(dǎo)致B大數(shù)據(jù)關(guān)聯(lián)的思維,比如說吸煙和肺癌,從抽煙到得肺癌,不是因果關(guān)系但是是相關(guān)關(guān)系,這種相關(guān)關(guān)系,比如說互聯(lián)網(wǎng)和金融交叉出現(xiàn)互聯(lián)網(wǎng)金融,這種關(guān)聯(lián)的關(guān)系給我們產(chǎn)生的這種分析分析,從科學(xué)上有挑戰(zhàn)。因?yàn)橐蚬P(guān)系已經(jīng)被科學(xué)論證了,今天是關(guān)聯(lián),關(guān)聯(lián)發(fā)現(xiàn)之后還要進(jìn)一步分析,到底對(duì)不對(duì)?到底有沒有因果?因果關(guān)系和關(guān)聯(lián)關(guān)系還在探討當(dāng)中。
從計(jì)算方法來看的話,原來數(shù)據(jù)都是一次算完了,封閉式的,現(xiàn)在是流式計(jì)算,迭代計(jì)算等等,我們可以用一種近似的方法,把一個(gè)數(shù)據(jù)分成子數(shù)據(jù)再合起來。
我們對(duì)大數(shù)據(jù)的發(fā)展趨勢(shì)做一個(gè)預(yù)測(cè),第一個(gè)比較大的變化是把人工智能放在第一位,大數(shù)據(jù)和人工智能結(jié)合是非常重要的,大數(shù)據(jù)的認(rèn)知理解非常難,怎么樣能夠把人工智能,傳統(tǒng)的人工智能也不能支持工作,我們從數(shù)據(jù)當(dāng)中提煉出來的支持是一種客觀的支持,人類有其他的支持,數(shù)據(jù)和人類的支持結(jié)合是一個(gè)廣義的人工智能,現(xiàn)在這個(gè)腦計(jì)劃我們國(guó)家也提出來了。
后面的話就是說,學(xué)科的交叉,大數(shù)據(jù)的隱私等等,這都是一個(gè)很大的挑戰(zhàn)。
第四點(diǎn)經(jīng)典的是在計(jì)算科學(xué)里面,今年有一篇在《自然》發(fā)布了,把深度學(xué)習(xí)和人工智能的理念,有了反饋和結(jié)合,取得了非常好的效果。這樣的話大家看到大數(shù)據(jù)能帶來一些原來做不了的事情。
我們都在朝著這個(gè)目標(biāo)努力,讓數(shù)據(jù)變成智慧和智能。