《2015年中國(guó)大數(shù)據(jù)交易白皮書》顯示,預(yù)計(jì)到2020年,中國(guó)大數(shù)據(jù)產(chǎn)業(yè)市場(chǎng)規(guī)模將是2014年規(guī)模的10倍,由2014年的767億元擴(kuò)大至8228.81億元。全球大數(shù)據(jù)市場(chǎng)高速增長(zhǎng),已經(jīng)成為全球IT領(lǐng)域中的增長(zhǎng)亮點(diǎn)。在中國(guó)盡管大數(shù)據(jù)仍處于起步階段,但各地發(fā)展大數(shù)據(jù)的積極性較高,行業(yè)應(yīng)用推廣迅速。在這個(gè)熱情高漲的大數(shù)據(jù)市場(chǎng),中國(guó)要想進(jìn)一步釋放大數(shù)據(jù)的價(jià)值,掌控大數(shù)據(jù)的技術(shù)話語權(quán),必須關(guān)注大數(shù)據(jù)的基礎(chǔ)技術(shù)。
眼下,雖然中國(guó)對(duì)大數(shù)據(jù)的熱情很高,但我們必須看到目前中國(guó)在大數(shù)據(jù)關(guān)鍵技術(shù)上的布局其實(shí)是有所欠缺的。目前世界各國(guó)都在搶先布局大數(shù)據(jù)的關(guān)鍵技術(shù)、基礎(chǔ)技術(shù),因?yàn)閺哪壳暗募夹g(shù)架構(gòu)和技術(shù)基礎(chǔ)來看,用現(xiàn)成的技術(shù)來解決大數(shù)據(jù)的問題還面臨諸多的挑戰(zhàn)。不久前,IBM中國(guó)研究院院長(zhǎng)沈曉衛(wèi)接受《中國(guó)電子報(bào)》記者采訪時(shí)坦言,我們要想真正從數(shù)據(jù)中獲得洞察、獲得價(jià)值,需要更高效、更智能的數(shù)據(jù)處理和分析平臺(tái),以及相應(yīng)的工具。其一,傳統(tǒng)的IT技術(shù),需要有更大的突破。比如物聯(lián)網(wǎng)處理系統(tǒng)需要一秒鐘處理上百萬信息,比如對(duì)非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行存儲(chǔ)和處理,需要新的技術(shù)。其二,需要引入物理模型來模擬物理世界。比如對(duì)天氣的理解,比如對(duì)疾病的風(fēng)險(xiǎn)控制的理解,比如對(duì)智能工廠的理解,都需要構(gòu)建大量的物理模型,并挑出更合適的模型,對(duì)物理世界作出更好的模擬和理解。其三,需要更強(qiáng)大的認(rèn)知計(jì)算,要求認(rèn)知計(jì)算有更強(qiáng)大的自然語言的能力、更強(qiáng)的機(jī)器學(xué)習(xí)能力等。
基于對(duì)市場(chǎng)需求和技術(shù)趨勢(shì)的判斷,事實(shí)上國(guó)外IT巨頭在大數(shù)據(jù)的關(guān)鍵技術(shù)上投入了大量人力、物力和財(cái)力來進(jìn)行關(guān)于大數(shù)據(jù)關(guān)鍵技術(shù)的研發(fā)。我們大家都知道現(xiàn)在談及大數(shù)據(jù)的利用,一定都會(huì)提及開源的Hadoop技術(shù),事實(shí)上對(duì)于大數(shù)據(jù)的利用僅僅依靠Hadoop是不夠的。我們朝向產(chǎn)業(yè)互聯(lián)網(wǎng)推進(jìn)時(shí)面臨非常多的挑戰(zhàn),我們的計(jì)算架構(gòu)、計(jì)算模式也面臨很大挑戰(zhàn)。比如傳統(tǒng)的計(jì)算機(jī)分析和數(shù)據(jù)整理方式,首先是收集數(shù)據(jù),然后儲(chǔ)存在數(shù)據(jù)庫程序中,然后在收到請(qǐng)求后搜索這些數(shù)據(jù)。這是一個(gè)高效的處理方式,但卻是一個(gè)緊繃的結(jié)構(gòu),而且通常會(huì)造成時(shí)間的浪費(fèi)。而在流計(jì)算當(dāng)中,高級(jí)軟件的運(yùn)算法則在接收流數(shù)據(jù)時(shí)就開始對(duì)其進(jìn)行分析。流計(jì)算在實(shí)時(shí)數(shù)據(jù)分析領(lǐng)域具有巨大的應(yīng)用空間,包括天氣、江河、電力、股票交易等等。但目前,中國(guó)的IT產(chǎn)業(yè)在流計(jì)算方面并沒有太多的話語權(quán)。面對(duì)大數(shù)據(jù)的挑戰(zhàn),有非常多類似流計(jì)算的新技術(shù),關(guān)鍵技術(shù)都需要中國(guó)IT企業(yè)做更多的布局,只有這樣,我們的大數(shù)據(jù)發(fā)展,大數(shù)據(jù)利用才不會(huì)變成“無根”的產(chǎn)業(yè)。
事實(shí)上不僅僅是在平臺(tái)和工具等基礎(chǔ)技術(shù)維度,中國(guó)要想在大數(shù)據(jù)領(lǐng)域擁有更大的話語權(quán),更好地釋放數(shù)據(jù)的價(jià)值,還必須在數(shù)據(jù)模型的維度、在數(shù)據(jù)科學(xué)家等維度進(jìn)行大量的投入。目前全球前1500強(qiáng)的企業(yè)都有自己的數(shù)據(jù)科學(xué)家。據(jù)國(guó)外職業(yè)人士社交網(wǎng)站LinkedIn公布的2014年最受雇主喜歡、最炙手可熱的25項(xiàng)技能,統(tǒng)計(jì)分析和數(shù)據(jù)挖掘技能位列榜首。研究機(jī)構(gòu)Gartner預(yù)測(cè),2015年,全球?qū)⑿略?40萬個(gè)與大數(shù)據(jù)相關(guān)的工作崗位,25%的組織將設(shè)立首席數(shù)據(jù)官職位。
不久前,阿里云宣布啟動(dòng)阿里云大學(xué)合作計(jì)劃AUCP,聯(lián)合國(guó)內(nèi)8所高校開設(shè)云計(jì)算與數(shù)據(jù)科學(xué)專業(yè)方向,目標(biāo)是到大學(xué)里培養(yǎng)大數(shù)據(jù)的科學(xué)家。應(yīng)該說阿里巴巴是國(guó)內(nèi)企業(yè)中“大數(shù)據(jù)意識(shí)”覺醒比較早的企業(yè)。對(duì)于大數(shù)據(jù)這樣的應(yīng)用學(xué)科的人才培養(yǎng),需要充分借助企業(yè)的資源。在國(guó)外企業(yè)中,IBM對(duì)于全球大數(shù)據(jù)的人才培養(yǎng)投入了巨大資源,已與全球1000多所大學(xué)一同合作,構(gòu)建一個(gè)輸送數(shù)據(jù)科學(xué)家的“通道”。
推進(jìn)大數(shù)據(jù)應(yīng)用需要大量的數(shù)據(jù)科學(xué)家,需要教育體系更重視大數(shù)據(jù)的人才培養(yǎng),需要更多的領(lǐng)先企業(yè)參與進(jìn)來,僅僅有阿里巴巴或者是IBM是遠(yuǎn)遠(yuǎn)不夠的。
專家觀點(diǎn)
中國(guó)工程院院士李德毅
挖掘數(shù)據(jù)價(jià)值要關(guān)注“小數(shù)據(jù)”
大數(shù)據(jù)來源于人類測(cè)量、記錄和分析世界的渴望和無盡的追求。隨著各種技術(shù)的迅猛發(fā)展和廣泛應(yīng)用,人類獲取數(shù)據(jù)的手段越來越多,大數(shù)據(jù)已成為網(wǎng)絡(luò)時(shí)代人類社會(huì)的重要資產(chǎn)。
模型和程序要圍著數(shù)據(jù)轉(zhuǎn),現(xiàn)在是大數(shù)據(jù)、小模型、小定律互相交叉,即使是同一個(gè)癌癥病,每個(gè)患者的表現(xiàn)也都不一樣,所以要關(guān)注對(duì)小數(shù)據(jù)、小群體的研究,因此創(chuàng)新表現(xiàn)在對(duì)交叉學(xué)科的形式化理論上。要更多地關(guān)注小眾,而不是做特例發(fā)表論文。
云計(jì)算要充分確定大數(shù)據(jù)中的不確定性和價(jià)值的隱蔽性,跨界構(gòu)建基于統(tǒng)計(jì)的可變視角和可變尺寸的全新發(fā)展空間,大數(shù)據(jù)將驅(qū)動(dòng)云計(jì)算架構(gòu)中心的演化和進(jìn)化,滿足及時(shí)發(fā)現(xiàn)大數(shù)據(jù)價(jià)值的需求。
貴陽大數(shù)據(jù)戰(zhàn)略重點(diǎn)實(shí)驗(yàn)室主任連玉明
“塊數(shù)據(jù)”是拉開大數(shù)據(jù)序幕的真正推手
“塊數(shù)據(jù)”是拉開大數(shù)據(jù)序幕的真正推手,風(fēng)口之上,得“塊”者得天下。“塊數(shù)據(jù)”可以將以往那些分散的、碎片化的行業(yè)數(shù)據(jù)、領(lǐng)域數(shù)據(jù)連接起來,把以往那些“數(shù)據(jù)孤島”連成一片,找出改造世界的方法。
怎樣區(qū)分“條數(shù)據(jù)”和“塊數(shù)據(jù)”?比如7和8是單獨(dú)分開的數(shù)字,這是“條數(shù)據(jù)”;當(dāng)它產(chǎn)生活性時(shí),就會(huì)發(fā)生變化,7和8便會(huì)有多種重構(gòu)形式,比如7乘以8等于56;7加8等于15;7和8組合成78等,這些便構(gòu)成了“塊數(shù)據(jù)”。
數(shù)據(jù)時(shí)代是融合的時(shí)代,運(yùn)用好大數(shù)據(jù),將發(fā)展指數(shù)、城市指數(shù)、生活指數(shù)等覆蓋到生活的各個(gè)方面,這將對(duì)城市管理、公共服務(wù)等提供巨大幫助。貴陽利用“塊數(shù)據(jù)”對(duì)多個(gè)領(lǐng)域進(jìn)行管理,這將迎來新的投資熱潮。
北京大學(xué)計(jì)算機(jī)系教授陳鐘
應(yīng)該讓真正懂大數(shù)據(jù)的人去做應(yīng)用
我國(guó)在大數(shù)據(jù)應(yīng)用方面長(zhǎng)期欠賬,存在數(shù)據(jù)應(yīng)用的跳躍問題。
我們小數(shù)據(jù)利用還沒有做好,開始做大數(shù)據(jù)應(yīng)用,在技術(shù)、意識(shí)觀念上都有欠缺,需要一步一步夯實(shí),尤其是在數(shù)據(jù)采集的準(zhǔn)確性上,需要將基礎(chǔ)應(yīng)用做好,讓真正懂大數(shù)據(jù)的人去做應(yīng)用。美國(guó)相當(dāng)一部分?jǐn)?shù)據(jù)處理的機(jī)構(gòu)和企業(yè)都是在數(shù)據(jù)處理分析上持續(xù)了幾十年,所以對(duì)于大數(shù)據(jù)要做好長(zhǎng)期發(fā)展的準(zhǔn)備。
大數(shù)據(jù)涉及個(gè)人隱私,也涉及一些敏感性數(shù)據(jù),需要分類治理公共的、敏感性的或是有隱私的數(shù)據(jù)。中國(guó)對(duì)于數(shù)據(jù)保護(hù)的法律法規(guī)還需要完善,購買公共數(shù)據(jù)做大數(shù)據(jù)應(yīng)用服務(wù),也需要法律支撐。大數(shù)據(jù)領(lǐng)域的安全不僅僅是網(wǎng)絡(luò)安全、信息安全或是基礎(chǔ)安全,還有大數(shù)據(jù)的延伸應(yīng)用以及它帶來的行業(yè)影響。