近來(lái),大數(shù)據(jù)被炒得熱得發(fā)“燙”,只要和數(shù)據(jù)有關(guān)的事情全部都被冠以了“大數(shù)據(jù)”之名。從目前在中國(guó)開(kāi)展大數(shù)據(jù)服務(wù)的情況來(lái)看,投身其中最積極、見(jiàn)效最快的是互聯(lián)網(wǎng)公司,尤其是BAT,因?yàn)榛ヂ?lián)網(wǎng)服務(wù)提供商擁有龐大的數(shù)據(jù),是天然的大數(shù)據(jù)服務(wù)提供商。從大數(shù)據(jù)應(yīng)用來(lái)看,精準(zhǔn)營(yíng)銷(xiāo)是目前用得最多也是最成功的大數(shù)據(jù)服務(wù)。但應(yīng)該說(shuō)我們今天所看到的僅僅是大數(shù)據(jù)應(yīng)用這個(gè)汪洋大海中的冰山一角,甚至可以說(shuō)是滄海一粟,我們要打開(kāi)大數(shù)據(jù)應(yīng)用的大門(mén),讓大數(shù)據(jù)真正成為我們經(jīng)濟(jì)社會(huì)轉(zhuǎn)型升級(jí)的“石油”,需要各界機(jī)構(gòu)勇敢地聯(lián)姻ICT公司,需要大家跨界融合。
眼下,最值得關(guān)注的事情,是各種與大數(shù)據(jù)相關(guān)的聯(lián)合實(shí)驗(yàn)室的建立。不久前百度與聯(lián)合國(guó)開(kāi)發(fā)署建立了大數(shù)據(jù)聯(lián)合實(shí)驗(yàn)室,研究的領(lǐng)域是環(huán)保健康,未來(lái)還會(huì)拓展到教育和災(zāi)害管理等。首個(gè)項(xiàng)目是設(shè)立“百度回收站”應(yīng)用,讓用戶(hù)手機(jī)一拍廢舊電器,就能夠顯示電子垃圾類(lèi)別和回收價(jià)格,用戶(hù)填寫(xiě)準(zhǔn)確信息,就會(huì)有回收廠商進(jìn)行聯(lián)系,破解電子垃圾回收難的問(wèn)題。也是在最近,北京市環(huán)境保護(hù)科學(xué)研究院與IBM建立了聯(lián)合實(shí)驗(yàn)室,目標(biāo)是利用認(rèn)知計(jì)算、大數(shù)據(jù)分析、物聯(lián)網(wǎng)等相關(guān)技術(shù),助力北京市加速霧霾治理。同樣是在最近,浪潮集團(tuán)與交通運(yùn)輸部公路科學(xué)院建立“現(xiàn)代物流大數(shù)據(jù)應(yīng)用實(shí)驗(yàn)室”,目標(biāo)是運(yùn)用大數(shù)據(jù)加速物流的智能化轉(zhuǎn)型。還是在不久前,電子科技大學(xué)與朗瑪信息公司建立醫(yī)療大數(shù)據(jù)聯(lián)合實(shí)驗(yàn)室,目標(biāo)是利用大數(shù)據(jù)破解健康難題。如此多大數(shù)據(jù)聯(lián)合實(shí)驗(yàn)室的建立,說(shuō)明一個(gè)重要的事實(shí),即大數(shù)據(jù)利用需要“融合智慧”。大數(shù)據(jù)之難事實(shí)上是難在對(duì)數(shù)據(jù)的理解和分析上,如何建立每一個(gè)領(lǐng)域的大數(shù)據(jù)分析模型,如何獲得大數(shù)據(jù)的洞察,既需懂“數(shù)學(xué)”又需要懂“行業(yè)”,二者缺一不可,也只有各個(gè)行業(yè)與ICT企業(yè)融合才有可能真正找到大數(shù)據(jù)中蘊(yùn)含的“智慧”。而聯(lián)合實(shí)驗(yàn)室的建立正是孵化“你中有我”、“我中有你”的“融合智慧”最有效的路徑。
大數(shù)據(jù)是一個(gè)真正“融合”的產(chǎn)業(yè),無(wú)論是傳統(tǒng)產(chǎn)業(yè)還是ICT產(chǎn)業(yè)都需要融合其他領(lǐng)域的智慧。而搶占融合的機(jī)會(huì),也是需要趁早行動(dòng)的,也是需要占位的。也許大家還記得當(dāng)年阿里巴巴聯(lián)合天弘基金推出“余額寶”的事,就在他們聯(lián)手推出余額寶后不久,各種理財(cái)?shù)?ldquo;寶”、各種消費(fèi)的“白條”紛紛推出,向市場(chǎng)拋出了高回報(bào)的理財(cái)產(chǎn)品,但是誰(shuí)也搶不走“余額寶”的頭籌,無(wú)論是用戶(hù)數(shù)還是資金量或是市場(chǎng)號(hào)召力和影響力,都沒(méi)能敵過(guò)他們,就因?yàn)樗麄兪沁M(jìn)入市場(chǎng)的第一個(gè)。在這個(gè)到處是“融合”和“混搭”的移動(dòng)互聯(lián)時(shí)代,你必須成為第一,才能摘得最大的果子,移動(dòng)互聯(lián)網(wǎng)如此,大數(shù)據(jù)的利用同樣如此。要想搶占某個(gè)領(lǐng)域的大數(shù)據(jù)“山頭”,必須動(dòng)手,現(xiàn)在就要?jiǎng)邮帧?/p>
在剛剛舉行的中國(guó)互聯(lián)網(wǎng)大會(huì)的大數(shù)據(jù)論壇上,盡管有很多業(yè)內(nèi)人士看到目前中國(guó)的大數(shù)據(jù)應(yīng)用,也潑出了很多的涼水,但就和所有的產(chǎn)業(yè)啟動(dòng)一樣,每一個(gè)產(chǎn)業(yè)的開(kāi)啟一定會(huì)遇到各種各樣的問(wèn)題,用戶(hù)接受度、數(shù)據(jù)共享、標(biāo)準(zhǔn)、缺位等等,而這些問(wèn)題一定是在產(chǎn)業(yè)不斷推進(jìn)、演進(jìn)的過(guò)程中不斷克服,不斷解決的。只有走出去、邁開(kāi)步子,才有可能知道路上的絆腳石,先搬哪一塊,用什么方法搬,走一步解決一步,大家一起探索,大家一起推動(dòng),才有可能真正迎來(lái)大數(shù)據(jù)應(yīng)用的春天。而要擁抱大數(shù)據(jù),推動(dòng)大數(shù)據(jù)的發(fā)展,現(xiàn)在需要讓ICT與其他各個(gè)產(chǎn)業(yè)界都勇敢地?fù)肀?duì)方,大家一起來(lái)“跨界”。
百度大數(shù)據(jù)部總經(jīng)理陶海亮
百度大數(shù)據(jù)應(yīng)用已有很多落地成果
百度已發(fā)布了大數(shù)據(jù)引擎戰(zhàn)略,把百度的大數(shù)據(jù)應(yīng)用技術(shù)能力開(kāi)放出來(lái),讓各行各業(yè)都可以去使用。
今年4月份,百度發(fā)布了大數(shù)據(jù)引擎戰(zhàn)略,把百度多年來(lái)積累的大數(shù)據(jù)應(yīng)用技術(shù)能力開(kāi)放出來(lái),讓各行各業(yè)都可以去使用。這個(gè)大數(shù)據(jù)引擎包括了三個(gè)部分,最底層叫做開(kāi)放云,大家理解為云計(jì)算,但是百度的云的規(guī)模更大一些,因?yàn)槲覀冇幸恍┆?dú)有的技術(shù)。在開(kāi)放云上面我們還有數(shù)據(jù)工廠,數(shù)據(jù)工廠是新一代數(shù)據(jù)庫(kù)管理的技術(shù),還有挖掘方法。數(shù)據(jù)工廠的上面是百度技術(shù)核心,叫做百度的大腦。百度大腦已經(jīng)達(dá)到了非常先進(jìn)的程度。
今年我們推出了一些大數(shù)據(jù)的應(yīng)用產(chǎn)品。比如旅游預(yù)測(cè)。旅游預(yù)測(cè)有兩個(gè)部分,一個(gè)部分叫景點(diǎn)預(yù)測(cè),這是我們跟旅游局和各地的旅游管理機(jī)構(gòu)合作,對(duì)未來(lái)一周,或者是幾天,每一個(gè)景點(diǎn)的人流情況進(jìn)行預(yù)測(cè)。另一個(gè)是基于我們旅游的數(shù)據(jù)去對(duì)道路和城市、旅游的出發(fā)地的預(yù)測(cè),這個(gè)預(yù)測(cè)結(jié)果對(duì)于我們的旅行社和管理部門(mén)很有價(jià)值。疾病預(yù)測(cè),是6月份上線的,我們從中國(guó)疾病控制中心拿到了一些數(shù)據(jù),將這些數(shù)據(jù)跟我們百度的數(shù)據(jù)相結(jié)合,我們可以對(duì)全國(guó)所有的地級(jí)市,以及全國(guó)2800個(gè)縣區(qū)的多種疾病的發(fā)病態(tài)勢(shì)進(jìn)行預(yù)測(cè)。高考預(yù)測(cè),這是我們今年高考之前上線的產(chǎn)品,這個(gè)高考預(yù)測(cè)產(chǎn)品有很多的內(nèi)容,比如作文高考命題在什么方向,我們給出了六個(gè)方向,每個(gè)方向給出了三套題,給出了內(nèi)容和范文。百度司南,這是我們基于大數(shù)據(jù)的商業(yè)決策平臺(tái),我們的司南能夠?qū)κ袌?chǎng)行為進(jìn)行評(píng)估,對(duì)消費(fèi)者動(dòng)態(tài)進(jìn)行洞察,比如我們知道很多的企業(yè)會(huì)請(qǐng)代言人,什么樣的代言人跟你產(chǎn)品比較吻合,過(guò)去沒(méi)有一個(gè)很好的基于數(shù)據(jù)的指標(biāo)。我們的司南這個(gè)產(chǎn)品,可以直接給出答案,你的產(chǎn)品跟哪一個(gè)代言人比較匹配,如果你是賣(mài)“馬自達(dá)6”的話可能請(qǐng)吳莫愁和王菲比較合適,請(qǐng)周杰倫不太合適,我們的產(chǎn)品可以數(shù)據(jù)化告訴你營(yíng)銷(xiāo)應(yīng)該怎么做,客戶(hù)是什么樣的,市場(chǎng)格局是什么樣的。
締元信網(wǎng)絡(luò)數(shù)據(jù)CEO秦雯
技術(shù)倫理不解決中國(guó)大數(shù)據(jù)永遠(yuǎn)有泡沫
大數(shù)據(jù)領(lǐng)域面臨很多問(wèn)題,包括企業(yè)深受其害的廣告虛假點(diǎn)擊等,這些問(wèn)題不解決大數(shù)據(jù)永遠(yuǎn)有泡沫。
目前大數(shù)據(jù)領(lǐng)域存在認(rèn)知混亂問(wèn)題。首先是很多做數(shù)據(jù)中心的公司號(hào)稱(chēng)自己是大數(shù)據(jù)公司,我們知道數(shù)據(jù)中心是所有互聯(lián)網(wǎng)業(yè)務(wù)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,大數(shù)據(jù)只是他要支撐的業(yè)務(wù)的一部分。其次做云計(jì)算的,也認(rèn)為自己是大數(shù)據(jù)公司。云計(jì)算是大數(shù)據(jù)的系統(tǒng)基礎(chǔ)設(shè)施,當(dāng)然海量數(shù)據(jù)的處理,沒(méi)有云計(jì)算是不可能實(shí)現(xiàn)的。但云計(jì)算只是大數(shù)據(jù)整個(gè)產(chǎn)業(yè)或者說(shuō)是應(yīng)用的組成部分。但是云計(jì)算不等于大數(shù)據(jù)。再者,很多人把大數(shù)據(jù)等同于數(shù)字化信息,并不是所有的數(shù)字化信息一定產(chǎn)生大數(shù)據(jù)。我們認(rèn)為大數(shù)據(jù)是數(shù)字化信息的生產(chǎn)和被消費(fèi)的過(guò)程數(shù)據(jù)。最后的一個(gè)誤區(qū)是認(rèn)為大數(shù)據(jù)就是海量數(shù)據(jù)。究竟什么是大數(shù)據(jù),我們認(rèn)為大數(shù)據(jù)是行為環(huán)境的過(guò)程記錄數(shù)據(jù)。
大數(shù)據(jù)的發(fā)展有兩個(gè)關(guān)鍵都與互聯(lián)網(wǎng)有關(guān)。一個(gè)是因?yàn)橛谢ヂ?lián)網(wǎng),所以我們能搜集到非常細(xì)致的數(shù)據(jù)。第二個(gè)是互聯(lián)網(wǎng)技術(shù)能夠以非常低的成本采集和使用大數(shù)據(jù)。
數(shù)據(jù)應(yīng)用存在生態(tài)環(huán)境問(wèn)題,我想講幾個(gè)方面,第一個(gè)是公共數(shù)據(jù),公關(guān)數(shù)據(jù)涉及幾個(gè)層面,一個(gè)是用戶(hù)隱私,一個(gè)是數(shù)據(jù)開(kāi)放,一個(gè)是技術(shù)倫理。我想講一下公共數(shù)據(jù)問(wèn)題,很多人認(rèn)為中國(guó)政府擁有最多的數(shù)據(jù),但是我們細(xì)看其實(shí)有很多的問(wèn)題,首先絕大部分政府在業(yè)務(wù)上的數(shù)據(jù)都是統(tǒng)計(jì)數(shù)據(jù)。另外數(shù)據(jù)質(zhì)量有很大的問(wèn)題,因?yàn)橹袊?guó)全社會(huì)沒(méi)有養(yǎng)成數(shù)據(jù)培育和數(shù)據(jù)管理的習(xí)慣,政府部門(mén)也不例外。另外很多數(shù)據(jù)是缺位的,我舉一個(gè)例子我相信今天做的互聯(lián)網(wǎng)的相關(guān)業(yè)務(wù)人員都有感觸,中國(guó)的IP地址數(shù)和IP地址分布情況,現(xiàn)在市場(chǎng)上流行的是民間整理的,這個(gè)事情應(yīng)該由政府來(lái)做,并且作為公共數(shù)據(jù)開(kāi)放出來(lái),這些方面現(xiàn)在是缺失的。技術(shù)的倫理問(wèn)題,我們知道互聯(lián)網(wǎng)技術(shù)能做很多的事情,而且這樣技術(shù)工作常常是道高一尺,魔高一丈。我們大家都熟悉的,很多企業(yè)身受其害的廣告虛假點(diǎn)擊等問(wèn)題,給我們帶來(lái)的思考是我們的技術(shù)應(yīng)用是不是需要講究商業(yè)道德和倫理,如果這個(gè)問(wèn)題不解決,說(shuō)實(shí)話在中國(guó)大數(shù)據(jù)落地永遠(yuǎn)是泡沫。
北京航空航天大學(xué)計(jì)算機(jī)學(xué)院副院長(zhǎng)胡春明
大數(shù)據(jù)處理要“3I”
每次講大數(shù)據(jù)的特征我們都講4V,對(duì)于大數(shù)據(jù)的處理我們認(rèn)為也存在三個(gè)特征,叫做3I。
大數(shù)據(jù)鏈條中仍然存在一些問(wèn)題,比如很多人認(rèn)為多元的大數(shù)據(jù)集就代表了真實(shí)的世界,但是實(shí)際上是嗎?我們觀察發(fā)現(xiàn)其實(shí)在采樣的過(guò)程中就有偏差,所以從這個(gè)角度講,數(shù)據(jù)是有質(zhì)量的問(wèn)題。第二個(gè)問(wèn)題是我們講了大數(shù)據(jù)之大,大到我們處理不了,我們應(yīng)該如何來(lái)處理大數(shù)據(jù)?在處理的過(guò)程中我們需要把大變小,就會(huì)要丟掉一部分的數(shù)據(jù),這是第二個(gè)面臨的問(wèn)題。第三個(gè)問(wèn)題是如何從數(shù)據(jù)中尋找知識(shí)和預(yù)測(cè)。這個(gè)預(yù)測(cè)的方法比之前的數(shù)據(jù)挖掘更進(jìn)一步,需要新的統(tǒng)計(jì)理論和數(shù)學(xué)工具,新的計(jì)算理論和算法、設(shè)計(jì)方法,新的大數(shù)據(jù)分布式計(jì)算機(jī)基礎(chǔ)設(shè)施找到知識(shí)和預(yù)測(cè),這是第三個(gè)問(wèn)題。
每次講大數(shù)據(jù)的特征我們都講4V,對(duì)于大數(shù)據(jù)的處理我們認(rèn)為也存在三個(gè)特征,叫做3I。第一個(gè)I叫做非精確。第一個(gè)層面是我們今天做的很多的計(jì)算或數(shù)值、術(shù)語(yǔ)不一樣,不需要那么精確,我們往往需要知道的是一個(gè)大的方向和態(tài)勢(shì)。另一方面是我們面臨的環(huán)境沒(méi)有辦法做得那么精確,數(shù)據(jù)在不斷的變化,沒(méi)有辦法得到一個(gè)穩(wěn)定的視圖,所以沒(méi)有辦法嚴(yán)格地去做,我們就放松要求,我們?cè)谟?jì)算里面堅(jiān)持非精確的一個(gè)思路,當(dāng)然非精確不意味著隨便去做,我們?nèi)匀恍枰幸恍┳罨镜姆?wù)質(zhì)量的保證。需要有一些辦法來(lái)避免這個(gè)通過(guò)非精確來(lái)減少計(jì)算成本的同時(shí),保證一定的服務(wù)質(zhì)量,這是我們認(rèn)為的第一個(gè)I的特征。第二個(gè)I的特征可能和大數(shù)據(jù)里的動(dòng)態(tài)持續(xù)變化緊密相關(guān)。數(shù)據(jù)因?yàn)槭浅掷m(xù)變化的,可能新來(lái)的數(shù)據(jù)占到過(guò)去歷史上所有數(shù)據(jù)的很小比例。如果我們能夠把我們的計(jì)算變得增量化,我只是針對(duì)新到來(lái)的比較小的數(shù)據(jù)塊做計(jì)算,然后能把這個(gè)計(jì)算的結(jié)果融合到已有的計(jì)算結(jié)果里面,這樣的話我們就在一定程度上減輕我們講的大數(shù)據(jù)之大的影響。當(dāng)然這個(gè)增量本身依賴(lài)一些前提條件,有一些算法或者是問(wèn)題適合增量處理,有一些算法并不一定適合。所以說(shuō)從這個(gè)角度來(lái)講,我們可能要運(yùn)用一些新的思想和方法來(lái)設(shè)計(jì),支持增量的算法,同時(shí)我們?cè)诜植际降挠?jì)算系統(tǒng)里面支持這樣一種增量計(jì)算的處理的能力,這是我們認(rèn)為三個(gè)I里面的第二個(gè)I。第三個(gè)I叫做歸納性。大數(shù)據(jù)是多元融合的數(shù)據(jù),這些數(shù)據(jù)代表了現(xiàn)實(shí)世界,代表了我們統(tǒng)計(jì)學(xué)上所謂的總體。那么從這個(gè)角度來(lái)講我們往往會(huì)有這樣的思想,我們?nèi)绻軌虬褋?lái)自不同源的數(shù)據(jù),及時(shí)相互參照,有所發(fā)現(xiàn),就會(huì)給我們帶來(lái)機(jī)會(huì),這是我們利用一種相互的參照來(lái)簡(jiǎn)化計(jì)算,同時(shí)能夠解決前面兩個(gè)非精確帶來(lái)的誤差。這是我們?nèi)藶榈拇髷?shù)據(jù)計(jì)算的三個(gè)I。