2014亞布力中國企業家論壇夏季高峰會,于8月22日-24日在河南鄭州召開。在大數據時代——從概念到實踐分論壇中,金沙江創業投資總經理丁健表示,大數據有一點被炒的過熱了,其實大數據本身有沒有價值和大數據開發利用以后的價值,這兩個是完全不同的,我喜歡在我們內部討論這些事情,喜歡用一個比喻,就是礦石。就是一塊石頭你給農民他就會用來蓋房子,你說值多少錢?你要給煉鐵的,他煉出來很有價值的鐵,要給一個煉金的,他可以從里面煉出金子來。所以石頭本身的價值,在很多人手里,如果沒有后面的煉金術,煉鐵術沒有任何價值,只能蓋房子。
以下為大數據時代——從概念到實踐分論壇實錄(部分):
丁健:讓我解釋大數據覺得比較困難,其實從大數據的角度來講,因為我們確實投大數據時間很長,亞信做大數據也很長時間。大家都知道中國電信數據時間很長,我們在做BI,大概七八年以前在做,幫他們挖掘整個電信數據來指導他們的營銷。所以亞信BI的人才幾乎在最近兩三年,被各個公司的大數據部挖的七零八落了,包括現在在騰訊、阿里,很多領導大數據的開發、分析。
我們自身從金沙江角度來講也在四年以前投了,幾乎是在大數據概念出來之前我們就投了業界第一、第二大數據的公司。坦率的說,大數據到今天的的確確像很多人說的這樣,有一點被炒的過熱了。道理其實最主要的是我們把很多概念混淆了,我們第一個概念就是把數據自身的價值和數據開發的價值混淆了。
其實大數據本身有沒有價值和大數據開發利用以后的價值,這兩個是完全不同的,我喜歡在我們內部討論這些事情,喜歡用一個比喻,就是礦石。就是一塊石頭你給農民他就會用來蓋房子,你說值多少錢?你要給煉鐵的,他煉出來很有價值的鐵,要給一個煉金的,他可以從里面煉出金子來。所以石頭本身的價值,在很多人手里,如果沒有后面的煉金術,煉鐵術沒有任何價值,只能蓋房子。所以我們要看大數據,主要是看它如何把現在的數據能夠開發利用起來,而開發利用數據的并不是近幾年才有的。
近幾年之所以被炒熱了,一是隨著互聯網,隨著特別是移動互聯網的到來,數據量的產生遠遠比以前要大得多,特別是很多的實時數據產生了。第二個就是計算能力也大幅度的提高了,大幅度提高之后對數據加工分析產生出來的新的價值也比以前大得多,所以這個時候大數據的價值被真正的用起來了。所以實際上你要仔細的看,大數據的發展,他最終的價值之所以到今天,并不是因為數據本身的價值提高了,而是開發利用數據的能力在大幅度的提高。
那么從這一點的角度上講,我們談大數據,很多人就是因為自己有很多的數據,就是說自己是個大數據公司,這是一個非常錯誤的觀點,甚至還有做餐飲的也說自己是個大數據公司。實際上你要仔細去看的話,我們現在看在很多做大數據的高科技公司里面,你會發現他的數據處理能力是在現在大數據里面最大的一個瓶頸。所以我們現在之所以說大數據被炒得過熱,是因為我們的期望值對大數據加工處理能夠的期望值,遠遠高于現實能夠提供的大數據。
所以前一段時間我在圣地亞哥見到一些人,說大數據已經被炒得不行了,被微軟一挖,被別的公司一挖就雙倍公司的給,因為這些人才太稀缺了。我不知道我能不能從一個角度把大數據稍微正一正名,就是我們要談大數據,先要專注在大數據的開發利用這一塊,所以我先講這么多。
丁健:剛才因為我第一個發言,所以我留了一半,正好剛才維嘉也在問我,從投資角度上來講現在小公司有沒有機會,又談到隱私的問題。我最早講的就是大數據有被夸大的地方,另一方面就是剛才建光講的,就是大數據從長遠角度來講,它的意義和對高科技的顛覆性是巨大的。其中很重要的一個地方就是這樣,就是大數據從最早到現在,實際上是完全不同的主題。
第一個階段是類似于剛才講到的企業內部的結構化的東西,而今天實際上我們大多數情況下講大數據的時候,往往指的是類似于完全沒有各種各樣散在各個地方的東西,這個難度是很大的。也就是包括像剛才講到谷歌和百度,這些新的技術是專門在處理的,這個實際上在大數據領域已經算是一個現實發展的,而真正現在再進一步,包括像IBM,像谷歌,像最近百度在搞的深度學習,微軟也在做,實際上又上升到下一層。就從我們所謂的叫仿人腦進行對數據進行工作,這是什么概念?就是以前的數據我們是告訴計算機怎么去分析,我們在這里面又是完全不同的了。
谷歌做了一個非常有名的實驗室,在斯坦佛,就是他把一堆YOUTUBE上的視頻進行操作,開始電腦有意識。當他看完這一些東西的時候,沒有人告訴他里面有什么,就讓他看,他自己總結出來了一個貓的形象。這個很有意思,當他把這個東西解決出來了,又用它認識了視頻里面所有的貓。所以這就是電腦開始真正進入到所謂的智能化,這就是現在談的最多的起點。就是我們原來覺得這是不可能的事情,就是電腦超過人腦是不可能的事情,現在把電腦和超過人腦的點叫起點或者是基點,這個時間現在已經有的人說我這一生看不到我孫子能看到,有的人說沒準我這一生就能看到。
現在包括很多道德問題等等都開始出現了,但是這個問題我們就不談了。我覺得現在的大數據,我把最基本的大數據到基點這兩個作為光譜的兩端的話,我們可能是在1/5的階段。那我們要做的,對企業來講非常重要的一點,其實現在所謂各企業在處理數據的話,還是太基本的數據了。有很多的其他數據都沒有辦法處理,你讓電腦自己去學的這些數據只有幾個公司有這樣的能力做。
我覺得最后的深度學習,人工職能的技術是誰最早掌握了對這種大數據的處理能力,他實際上會對它的預測性,決策,甚至包括炒股各種各樣的都有巨大的影響。現在股市上已經有了,有機會大家可以去看一看。“失控”他已經預測到了一些股票很精準了,他的一些走向,都屬于非常保密的狀態了,這是相對來講遠遠超過我們想象的,它的難度是超過我們想象的。我覺得企業并不需要害怕,企業還是要重視這個數據的應用,特別是對自己企業的數據,還有特別是公共企業的數據,就是公共平臺上的數據怎么樣利用起來,這是一個。
第二個學習就是維嘉講的數據合作,現在在國外有很多這樣成功的公司已經開始了,包括做數據市場,做數據的交換、合作這些方面,在這里面有非常重要的一點就是安全,這里面既涉及到隱私保護又涉及到合理使用,那在這個平衡點上怎么做?用一個時髦的詞來講就是法治非常重要。就是政府如何能通過立法,既可以合理的讓大數據更快的使用,而不是來阻礙大數據的發展,又能夠讓大數據隱私保護也能做到。其實現在這方面已經開始做了,電信現在有一些投資的公司在合作,他們很正常,把數據開放出來,他們第一步就是去隱私化或者去敏感化,他去敏感化了之后就可以向外公開數據了。
最后再引用別人說的一句話,就是(聞達),他認為人工智能的未來,深度學習的未來在中國,這個他是覺得我們既有很大的數據量,因為我們的人口要比美國大好多倍,同時在數據的方面來講,還有數據的應用方面來講又有巨大的優勢。我們既是數據產生的巨大方向,又是數據應用的巨大方向,還有大量的高科技人才,又是大數據處理技術最有希望的部分。所以我覺得無論在創業角度還是從我們的企業應用角度來講,大數據的未來在中國還是有巨大潛力的,謝謝。