提要:目前大數據的火熱程度可見不一般,大數據真的創造如此高的價值嗎?或者說創造價值的范圍有那么廣嗎?以置于在很多三線城市的運營商都在做大數據項目。實踐經驗中發現,實際投入成本遠遠大于其中收益。還是說有非直觀的,隱性的價值?
如果是泡沫,還能持續多久,破滅后會是一翻什么行業景象?
來自知乎網友何明璐的解答:
這個問題要分布對待,里面有泡沫,但是也有實實在在取得業務價值的案例。那這個問題如何來診斷和分析。
我們看到,對于大數據這個概念沒有出來之前,其實對于大型電商平臺,電信運營商,包括大的金融行業已經在做類似大數據方面的事情,以解決海量異構數據下的實時性問題。這些都有明確的業務場景驅動,用傳統的一些技術解決起來困難,針對這些有明確業務場景驅動的項目本身并沒有太多的泡沫。可以看到的是大型的電商平臺,運營商或金融機構立項或研究做的,解決內部大數據場景下問題的的項目,基本還是有實際的業務參考價值。
還有一種就是完全是迎合大數據概念的,本身就不存在需要大數據的業務場景,由于大數據炒的火熱,原來存在的各種應用都冠以大數據的名頭。但是當仔細分析后發現一個是本身不存在大數據標準的業務場景,一個是我們提出的目標本身就是虛擬的并不是真實客戶需要的目標。對于這類項目存在極大的泡沫。
來自VC Kevin Sure的回答:
有一定泡沫.
Michael Jordan(不是打籃球那個)的答案
先說說他討論這個問題的資格。作為IEEE fellow,伯克利的Jordan教授是機器學習世界范圍內最被尊敬的專家之一,在2013年還被邀請在美國國家研究委員會對相關領域的報告里作序總結。
這里有全文:Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts
他觀點的骨架:
1. 目前的大數據給出的結果可靠性太低,如果急于應用到實際中,就好比是土木工程都沒學好就開始造橋,結果只能造出“豆腐渣工程”。
一大波“false positive”(假陽性)正在接近,因為數據增長的速度不夠支撐我們把大數據到處亂用的欲望
作為一個科學,不夠嚴謹(原文是“沒有error bar”)。不像造橋的土木工程,經過多年的積累,明確地能告訴我們什么樣的情況可以造,什么不可以。而大數據沒有。
2. 目前在computer vision領域進展還很小
只能在非常有限的范圍內識別,比如人臉識別這樣非常具體的引用(雖然這個不是直接說大數據,但是可以看出,作者認為真正做到萬物都sensor還很遠,大數據的采集能力終究還是有限的)
3. neural network根本和人腦的neural network不是一回兒事,我們對大腦的理解根本沒到可以引用到計算機科學的程度
現在deep learning所采用的back propagation技巧,明顯不是大腦的運作方式
network的結構都完全不同,什么對數據的模糊性處理已經達到人腦的境界云云,主要是媒體扯談
對他觀點的總結:
有些媒體為了讓公眾容易理解打了些比方,但是這種比方造成了太多誤解,進而造成了太多hype(夸張的大肆宣傳)。大數據還是一個沒有足夠嚴謹程度的科學,可能有一定的概率做出一些有用的預測,但是使用不當,過分過早地依賴,則會造成災難性的后果。
很多時候大家過早對一個技術爆發熱情,寄希望她可以改變世界,如果短時間沒有成果,有可能熱情一下子轉冷又覺得這是個錯誤,加速抽離給這個技術的資源。顯然Michael很擔心現在公眾對這個技術的熱情,并不是基于對這個技術的理解,從而有可能會經歷這樣的態度轉變。但是他認為這個領域是現實存在的,很多重要的應用,假以時日,是會創造價值的。但是現在很多媒體宣傳,甚至投資行為,都是泡沫。
最后他覺得,如果他有10億美元,一定會投入到natural language processing里面去。畢竟這是人機互動很重要的一個方面。