由中國計算機用戶協(xié)會、中國互聯(lián)網(wǎng)協(xié)會指導(dǎo)、比特網(wǎng)和IT專家網(wǎng)主辦、比特CIO俱樂部承辦的第五屆中國CIO年會,在國家會議中心隆重開幕。本次年會主題定位新技術(shù)浪潮下的IT變革。聚焦熱點技術(shù),關(guān)注企業(yè)應(yīng)用,引領(lǐng)IT變革。
劉權(quán)稱:“從廣義來講,大數(shù)據(jù)產(chǎn)業(yè)鏈貫穿了數(shù)據(jù)整個生命周期,從產(chǎn)生、采集、存儲,這和整個鏈條是有點相似的,從狹義來看,大數(shù)據(jù)的產(chǎn)業(yè)鏈主要涵蓋數(shù)據(jù)的管理分析、呈現(xiàn)和應(yīng)用的環(huán)節(jié)。從產(chǎn)業(yè)鏈條,既包括硬件也包括軟件和信息服務(wù),硬件、軟件和信息服務(wù),在座的都不太陌生,但是我們統(tǒng)計,從大數(shù)據(jù)銷售收入來看,軟件、硬件、信息服務(wù),這里面信息服務(wù)比重相對來說比較高一點,服務(wù)占到44%,硬件占到了40%左右,應(yīng)該說服務(wù)還是比較高的,里面軟件相對來說要比較低一點。”
以下為劉權(quán)現(xiàn)場發(fā)言實錄:
劉權(quán):非常高興今天有機會跟大家介紹一下我們有關(guān)在大數(shù)據(jù)方面研究的情況。聽了兩三位同志大數(shù)據(jù)他們的一些見解,聽完之后有一個問題,大數(shù)據(jù)的概念究竟是什么?似乎聽完之后在業(yè)界當(dāng)中還是有些分歧,今天再給大家講大數(shù)據(jù)帶來的信息安全,有關(guān)大數(shù)據(jù)基本情況,簡單給大家做一個匯報。
我介紹內(nèi)容從以下四個方面,一個是有關(guān)大數(shù)據(jù)的定義、內(nèi)涵和特征;第二,畢竟是IT人士,在信息化發(fā)展到這個階段,未來大數(shù)據(jù)是每個企業(yè)或者將來IT行業(yè)不可避免;第三,看其他公司尤其傳統(tǒng)的IBM、EMC他們正在做什么,包括小型的新型的IT公司,他們在做什么,有可能對咱們企業(yè)來講,有啟發(fā)。最后,給大家介紹大數(shù)據(jù)帶來的安全敏感點。
第一有關(guān)大數(shù)據(jù)的概念,尤其今年3月份,奧巴馬提出大數(shù)據(jù)以來,大家說得比較熱,真正提出來的是2005年,IBM出版了一本書叫做《無所不包的數(shù)據(jù)》,如何改變和業(yè)務(wù)以及人們的生活。我們需要看到一點,這個大數(shù)據(jù)是不是就是一個數(shù)據(jù)的累計,就是大規(guī)模數(shù)據(jù)的概念,這塊我的理解和剛才這幾位企業(yè)人士的理解有點不太一樣。從目前來看,大數(shù)據(jù)目前已經(jīng)成為普遍的現(xiàn)象,從我們底下幾個數(shù)據(jù)可以看得出來,全球數(shù)據(jù)總量目前這幾年呈現(xiàn)指數(shù)級的增長,人類過去三年里,數(shù)量比以往400年還要多,目前信息總量兩年翻一倍,到2020年全球電子設(shè)備存儲在爆增5.42ZB,這個ZB是2的70次方,目前咱們現(xiàn)在大家接觸比較多的是TB的概念,ZB在數(shù)據(jù)統(tǒng)計當(dāng)中是最高的。
目前來講,2011年,全球被創(chuàng)建和復(fù)制數(shù)據(jù)總量達(dá)到1.8ZB,這樣的一個概念。同時,對于企業(yè)級來講,企業(yè)級的用戶它的數(shù)據(jù)量也是在快速增長,由43.5%的企業(yè),每天產(chǎn)生數(shù)據(jù)生成量100GB,現(xiàn)在互聯(lián)網(wǎng)公司包括電商企業(yè),他們每天生成量超過50ZB,目前這個數(shù)據(jù)產(chǎn)生量還是非常龐大的。
第二個背景,在2011年6月份,麥肯錫有一本書《大數(shù)據(jù)下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》。第三次熱朝,在今年3月份美國政府把大數(shù)據(jù)研究和生產(chǎn)計劃提高到國家的層面推薦它,包括日本新一輪IT振興計劃,也是把大數(shù)據(jù)發(fā)展作為國家層面戰(zhàn)略提出來,大數(shù)據(jù)在西方發(fā)達(dá)國家來講,他們還是高度重視的。
究竟大數(shù)據(jù)的概念是什么?我們的理解是,大數(shù)據(jù)不僅僅是咱們目前一般理解上的數(shù)據(jù)的概念,我們的理解是大數(shù)據(jù)其大小超出了典型數(shù)據(jù)庫軟件的典型、存儲,這個概念可以看到,大數(shù)據(jù)這個背景下,傳統(tǒng)的數(shù)據(jù)分析軟件都是時效的,具備了這樣的特征情況下,我們理解這個數(shù)據(jù)是目前業(yè)界所理解的大數(shù)據(jù)的概念,也不僅僅是目前電商企業(yè)累加起來產(chǎn)生的數(shù)據(jù)多一點。所以說大數(shù)據(jù)有些人給它的定義,大數(shù)據(jù)是自從計算機出來,又一次信息產(chǎn)業(yè)革命,從這點來講,也印證了大數(shù)據(jù)的概念對產(chǎn)業(yè)帶來的革命對技術(shù)的創(chuàng)新,在傳統(tǒng)的數(shù)據(jù)庫的分析軟件,在大數(shù)據(jù)背景下都是時效的。
隨著時間的推移,可以說大數(shù)據(jù)的規(guī)模肯定是增長越來越快,數(shù)據(jù)規(guī)模也在實際增長,對于不同的行業(yè)領(lǐng)域,不同的應(yīng)用而言,大數(shù)據(jù)的規(guī)模也是不同的。到目前為止,有關(guān)大數(shù)據(jù)確切的地位是什么?業(yè)界還沒有完全準(zhǔn)確的定義。我們理解大數(shù)據(jù),應(yīng)該說它直接的代表是從咱們一般形式上觀察,是數(shù)據(jù)集合靜態(tài)的對象,但事實上來講,大數(shù)據(jù)并不僅僅是大規(guī)模數(shù)據(jù)的集合本身,而指的是技術(shù)、對象、應(yīng)用來說的,目前的軟件分析和采集能力,從技術(shù)角度來看,大數(shù)據(jù)技術(shù)從各類型大數(shù)據(jù)中快速獲得有信息的技術(shù)信息系統(tǒng)。大數(shù)據(jù)要求咱們在龐雜而煩亂的數(shù)據(jù)當(dāng)中,能夠快速的通過數(shù)據(jù)分析找到有價值、有規(guī)律的東西。
大數(shù)據(jù)集合集成獲得有價值的,剛才幾位專家提到了,大數(shù)據(jù)當(dāng)中有關(guān)鍵的技術(shù)就是集成技術(shù)、平臺技術(shù),怎么樣集成多方技術(shù)能夠快速的從大數(shù)據(jù)當(dāng)中找到它的有價值的信息。另外,有幾個明顯特征,體量大,大家不用再說了,從每個電商和互聯(lián)網(wǎng)來講數(shù)量都是非常大的。Facebook300億條信息,這個數(shù)據(jù)量都是非常龐大的。類型多,這一點,也是大數(shù)據(jù)典型的特征,咱們傳統(tǒng)的數(shù)據(jù)庫當(dāng)中,往往是結(jié)構(gòu)化的,在目前來講,咱們現(xiàn)在的數(shù)據(jù)庫當(dāng)中,所存儲的主要是半結(jié)構(gòu)化或者是非結(jié)構(gòu)化的數(shù)據(jù),比如說現(xiàn)在在智慧城市當(dāng)中,對有些接入口的流媒體,接視頻或者音頻等的這樣非結(jié)構(gòu)化的數(shù)據(jù),對他們來說占的空間很大,這樣的分析也是非常麻煩的技術(shù)。
從統(tǒng)計來看,全世界目前來講,結(jié)構(gòu)化的數(shù)據(jù)增長率32%,非結(jié)構(gòu)化數(shù)據(jù)63%,預(yù)計在2012年底,非結(jié)構(gòu)的數(shù)據(jù)占的比例達(dá)到咱們互聯(lián)網(wǎng)75%。未來要處理的大多數(shù)的數(shù)據(jù)是非結(jié)構(gòu)化的,對非結(jié)構(gòu)數(shù)據(jù)怎么樣存儲,怎么樣分析,怎么樣快速找出有價值的東西來,這是應(yīng)對或者處理大數(shù)據(jù)要考慮的典型的問題。
第三,這一點,剛才樂蜂網(wǎng)提到了,除了的時候速度快,給你一個龐雜的數(shù)據(jù)庫,如果對當(dāng)中領(lǐng)導(dǎo)或者其他客戶需要你從中挖掘出來他們感興趣的幾個點,你要持續(xù)三年或者五年,這個價值已經(jīng)沒有了,因為信息或者數(shù)據(jù)它的價值與時間是有關(guān)系的,他們要求你怎么樣在幾秒甚至幾分鐘,快速的抽取出有用的東西來,對大數(shù)據(jù)的分析,時間上了解是非常的迫切的。
第四,這也是我們在討論的時候,對大數(shù)據(jù)也是有爭議的地方,大數(shù)據(jù)的價值究竟高還是低?大數(shù)據(jù)需要保護(hù)還是不需要保護(hù)?大數(shù)據(jù)本身是不是關(guān)注它的安全問題?這個在目前來講,業(yè)界爭議還是非常大的,好多數(shù)據(jù)都是公開的數(shù)據(jù),它的量非常大,它的價值非常低,不需要關(guān)注它的安全問題,有些人認(rèn)為大數(shù)據(jù)本身也沒有太大的價值,這是有些人的觀點。另外一些人的觀點來講,用大數(shù)據(jù)當(dāng)中經(jīng)過對它的分析,信息量是非常高的,但是分析的結(jié)果可以說對一個國家的經(jīng)濟(jì)運行或者對一個企業(yè)或者對一個行業(yè),這個影響還是重大的。
舉個例子,前一段時間,家樂福和沃爾馬,在超市銷售商品過程當(dāng)中,數(shù)據(jù)的管理系統(tǒng)或者它的銷售系統(tǒng)的數(shù)據(jù)都是傳到國外,傳到法國和美國,這個問題會不會對中國的經(jīng)濟(jì)安全帶來負(fù)面影響。從這個案例當(dāng)中大家可以分析到,傳授這些東西,比如說賣的日用品,對于單個產(chǎn)品來講,價值很低,假如說你對它整個規(guī)模累加起來之后,對大規(guī)模的數(shù)據(jù)進(jìn)行分析,確實它能夠反映出來區(qū)域商品的走勢可以說,全國采購成本在什么地方?他們都會找出一些痕跡或者找出一些證據(jù)來。大數(shù)據(jù)本身價值有沒有還是沒有?價值高還是低?這個在業(yè)界爭議還是非常大的。大數(shù)據(jù)本身密度相對比較低的,但問題在于,如果從大數(shù)據(jù)當(dāng)中能提煉出或者去分析,找出規(guī)律性的東西,它的價值是非常高的,這是對大數(shù)據(jù)的理解。所以說導(dǎo)致出來大數(shù)據(jù)是不是需要保護(hù),有些人認(rèn)為大數(shù)據(jù)本身量非常龐大,不經(jīng)分析,它里面有價值的東西很少,對大數(shù)據(jù)本身不需要保護(hù)。但有些人觀點考慮到,因為它的數(shù)據(jù)量很大,雖然說價值低,但是有價值的東西,有規(guī)律的東西還是非常高的,在業(yè)界有兩派。
接下來簡單介紹一下,作為IT人士,有關(guān)大數(shù)據(jù),大數(shù)據(jù)時代確實已經(jīng)到來,在這塊對IT企業(yè)到底做什么事情?介紹大數(shù)據(jù)的產(chǎn)業(yè)鏈和關(guān)鍵技術(shù)。從廣義來講,大數(shù)據(jù)產(chǎn)業(yè)鏈貫穿了數(shù)據(jù)整個生命周期,從產(chǎn)生、采集、存儲,這和整個鏈條是有點相似的,從狹義來看,大數(shù)據(jù)的產(chǎn)業(yè)鏈主要涵蓋數(shù)據(jù)的管理分析、呈現(xiàn)和應(yīng)用的環(huán)節(jié)。從產(chǎn)業(yè)鏈條,既包括硬件也包括軟件和信息服務(wù),硬件、軟件和信息服務(wù),在座的都不太陌生,但是我們統(tǒng)計,從大數(shù)據(jù)銷售收入來看,軟件、硬件、信息服務(wù),這里面信息服務(wù)比重相對來說比較高一點,服務(wù)占到44%,硬件占到了40%左右,應(yīng)該說服務(wù)還是比較高的,里面軟件相對來說要比較低一點。
剛才幾位業(yè)界人士提到,有集成技術(shù),關(guān)鍵技術(shù)包括數(shù)據(jù)處理,數(shù)據(jù)的呈現(xiàn),還有數(shù)據(jù)集成技術(shù),通過數(shù)據(jù)分析技術(shù)來講,這里面包括數(shù)據(jù)挖掘、商業(yè)智能技術(shù)、遺傳算法、神經(jīng)網(wǎng)絡(luò)等,這里面對分析技術(shù)來講,傳統(tǒng)智能的或者說比較先進(jìn)的一些數(shù)據(jù)分析方法在這里面有所體現(xiàn)。從處理技術(shù)上來講,最主要的是非結(jié)構(gòu)化的,呈現(xiàn)技術(shù)來講,主要包括可視化的技術(shù),展示技術(shù)等等,此外,剛才還提到了最關(guān)鍵的平臺集成技術(shù)。
接下來,其他的企業(yè)做什么,其他的企業(yè)做法有可能給在座的各位有所啟發(fā),業(yè)界人士現(xiàn)在有一個觀點,大數(shù)據(jù)所能帶來的商業(yè)價值,每個人是引領(lǐng)作為20世紀(jì)計算革命下巨大的變化,這個也是最近不久在研討會上專家談到的,現(xiàn)在大數(shù)據(jù)的出現(xiàn),對互聯(lián)網(wǎng)加上物聯(lián)網(wǎng)等等,這個對整個IT業(yè)界的沖擊或者革命性的作用來講,這個作用更大,大家對大數(shù)據(jù)里面給業(yè)界帶來的革命性的或者給產(chǎn)業(yè)帶來快速增長,有一個新的增長點,這個作用都是很高的。現(xiàn)在包括傳統(tǒng)IT企業(yè),新型的IT企業(yè),他們認(rèn)識到企業(yè)的價值,大數(shù)據(jù)的價值,所以說他們在大數(shù)據(jù)里面不管是傳統(tǒng)的IT企業(yè),還是其他的新的IT企業(yè),都是在這個里面做出了一些部署。
接下來簡單給大家介紹幾個企業(yè),他們究竟在做什么?
在業(yè)界來講,大數(shù)據(jù)里面,大家提到了不外乎就是IBM、惠普、戴爾等這幾家工業(yè),IBM在大數(shù)據(jù)時代,他們還是做好充分的準(zhǔn)備,尤其這幾年他們的做法。2009年IBM提出了優(yōu)化戰(zhàn)略、大規(guī)模數(shù)據(jù)的處理,2011年IBM應(yīng)對海量數(shù)據(jù)平臺進(jìn)行多項創(chuàng)新,在今年的3月16號,IBM論壇上,IBM正式提出大數(shù)據(jù)的概念,IBM在大數(shù)據(jù)里面確實本身是信息服務(wù)商,在這里面有一些自身的核心技術(shù)的積累。
另外,它確實也對大數(shù)據(jù),從高層認(rèn)識上非常關(guān)注,也包括今年5月17號,IBM正式在中國市場發(fā)布了智慧的,推出了完整的方法論,從信息的分析結(jié)果到業(yè)務(wù)成果的整體途徑,IBM將這種方法叫做3A五步,學(xué)習(xí)和轉(zhuǎn)型,IBM為用戶提供了軟硬件產(chǎn)品服務(wù)。今年9月份IBM大數(shù)據(jù)戰(zhàn)略發(fā)布會上,又全面進(jìn)行了升級,業(yè)界率先提出了大數(shù)據(jù)平臺架構(gòu),為行業(yè)企業(yè)選擇構(gòu)建大數(shù)據(jù)基礎(chǔ)方案提供了全面的支持。
從2009年4月份,一直到2011年,包括今年3月份、5月份、9月份,今年短短半年,對大數(shù)據(jù)概念進(jìn)行兩次更新,最初的概念到整個行業(yè)完整服務(wù)的解決方案,尤其最近提出大數(shù)據(jù)平臺的概念,這一點在業(yè)界還是得到很好的反響。這個大數(shù)據(jù)平臺有四大核心能力,包括提到的Hadoop系列,流計算、數(shù)據(jù)長度加上數(shù)據(jù)的整合與治等等,全方位都提出來解決方案。Hadoop這個系統(tǒng)領(lǐng)域當(dāng)中,它代表的產(chǎn)品主要是Infosplere Streams,在這個里面提出普通的Hadoop開源工具,在可用性、安全性得到了大力提高,在流計算領(lǐng)域代表的產(chǎn)品,包括在信息整合和治理方面,他們都推出了整體解決方案。
Oracle做最大的改變,從傳統(tǒng)的軟件到現(xiàn)在提出來,他們是軟硬一體化,尤其在今年年初提出來一體化的概念,在業(yè)界反響還是很大。
EMC,在座的各位不是太陌生,這個企業(yè)很典型的存儲行業(yè),在35%左右的,應(yīng)該說多年來都是排行第一的,長期與IBM、惠普遠(yuǎn)遠(yuǎn)拋在深厚,EMC出場收入連續(xù)十五年,占整個市場的22.6%,這家公司在存儲行業(yè),傳統(tǒng)存儲領(lǐng)域非常有競爭優(yōu)勢,但是在應(yīng)對大數(shù)據(jù)時代的到來,EMC他們確實動作也是比較大的,EMC在應(yīng)對大數(shù)據(jù)這塊,重點是采用了兩個戰(zhàn)略,第一是抓研發(fā),第二抓并購,每年投入25億美元,收購資金20億美元。在收購其他企業(yè)的時候,EMC和其他的公司,EMC在收購的時候,是豐富的現(xiàn)金去支持企業(yè)的發(fā)展,而不是去改變現(xiàn)在企業(yè)的業(yè)務(wù)架構(gòu),在收購的同時不改變企業(yè)的戰(zhàn)略,這一點對被收購的企業(yè)快速增長補充了一個現(xiàn)金流,從這兩年收購的情況看效果還是比較好。
EMC在云計算為平臺大數(shù)據(jù)戰(zhàn)略也是EMC在大數(shù)據(jù)時代,他們最早的一個企業(yè),像比競爭對手來講,關(guān)注大型的機器和大型管理軟件,EMC主要采用云計算開放式、集成式進(jìn)行處理。這兩年EMC在大數(shù)據(jù)這塊動作也是非常頻繁的,在今年5月21號,EMC Word大會上一次性推出42個產(chǎn)品,去年1月份以來,已經(jīng)推出了41款產(chǎn)品,現(xiàn)在不到兩年的時間,現(xiàn)在已經(jīng)推出了83款,EMC在大數(shù)據(jù)的領(lǐng)域,應(yīng)該說它的創(chuàng)新步伐非常快。
第四個就是惠普,剛才惠普同志也介紹了,不再多說了。
傳統(tǒng)的IT企業(yè)來講,他們在應(yīng)對大數(shù)據(jù)時代到來,他們都做了充分的準(zhǔn)備,在大數(shù)據(jù)時代確實非常看好,并投入了大量的人力和物力,也把大數(shù)據(jù)的戰(zhàn)略和提升核心競爭力關(guān)鍵措施之一。
對幾家新型的公司來看,簡單舉幾個例子,這里面只能證明一點,風(fēng)險投資或者有關(guān)大數(shù)據(jù)處理的公司,風(fēng)投還是非常看好的,Spluek公司,4月19號在納斯達(dá)克交易口上市,這也是大數(shù)據(jù)公司第一家上市公司,融資2.29億美元,上市首日超過了32億美元,從市場的反映情況來看,現(xiàn)在在美國市場出現(xiàn)暴漲情況,目前非常少見。
對于Birst公司,成立時間很短,2004年成立,2012年5月2號完成了4600萬美元的風(fēng)投。這是做云筆記的公司,成立于2007年,
這幾家公司對風(fēng)投行業(yè)來講,他們都是很容易的獲得了高額的風(fēng)險投資,不管對傳統(tǒng)的IT企業(yè)還是對于新型弱小的IT公司來講,大家都是非常看好EMC,都是看好大數(shù)據(jù)行業(yè),對新型的比較弱小的企業(yè)來講,這個股票市場和風(fēng)投都給出了滿意的答卷。
剛才已經(jīng)提到未來不可避免的,不管是對于互聯(lián)網(wǎng)公司也好,還是提供IDC服務(wù)的這些公司,大數(shù)據(jù)是咱們將來不可避免,也是一定遇得到的事情。對于大數(shù)據(jù)時代,這個企業(yè)應(yīng)該怎么去做?這些風(fēng)險應(yīng)該有多大?大數(shù)據(jù)究竟需要不需要過多關(guān)注它的安全問題?在業(yè)界目前來講,有兩塊觀點,作為我們研究團(tuán)隊來講,對于大數(shù)據(jù)它的安全性,應(yīng)該還是得到初步的重視,大數(shù)據(jù)當(dāng)中確實里面的信息含量比較高,雖然說里面的價值密度相對來說比較低,但是對它里面還是涉及到敏感信息,隨著現(xiàn)在快速處理這樣一些技術(shù)的出現(xiàn),快速得到有價值的信息或者風(fēng)投分析出來有關(guān)企業(yè)敏感氣息。所以我們認(rèn)為對大數(shù)據(jù)大家還是應(yīng)該去關(guān)注它的安全的問題,它的安全風(fēng)險主要體現(xiàn)在以下幾個方面:
第一,大數(shù)據(jù)更加容易成為網(wǎng)絡(luò)攻擊的顯著目標(biāo),從近兩年所發(fā)生的一些互聯(lián)網(wǎng)公司的用戶帳號的信息失竊情況來看,大家可以發(fā)現(xiàn),一般失竊的量都是非常龐大的,也就是說,大數(shù)據(jù)當(dāng)中數(shù)據(jù)量比較大,它的信息量也比較大,所以黑客更加樂意去攻擊,因為相對來說成本是比較低的。
第二,大數(shù)據(jù)當(dāng)中加大了隱私泄漏的風(fēng)險,畢竟是大數(shù)據(jù),對一個企業(yè)在數(shù)據(jù)存儲和部署的時候,有些時候容易交叉存儲,把敏感信息一不小心部署到公開的或者不應(yīng)該部署到服務(wù)器上,更容易加大隱私的泄漏。
第三,大數(shù)據(jù)對于現(xiàn)有的存儲和防范措施,這點是不言而喻的,大數(shù)據(jù)數(shù)據(jù)量比較大,對于現(xiàn)在的存儲和目前安全防范措施可能提出新的挑戰(zhàn)。同時,大數(shù)據(jù)分析技術(shù)也容易被黑客利用攻擊當(dāng)中去。
第四,大數(shù)據(jù)可能成為高級可持續(xù)的載體,APT這兩年提的比較多的詞,有一個顯著特點,這個病毒代碼非常強大,有攻擊目標(biāo)很難隱藏期間,對于龐大的大數(shù)據(jù)來講,這樣的惡意軟件隱藏在數(shù)據(jù)詞當(dāng)中很難發(fā)現(xiàn)。所以說有可能大數(shù)據(jù)成為高級的可持續(xù)APT的攻擊載體,這一點可能是需要大家非常注意的。