這兩天在faculty版上灌水糾結(jié)大數(shù)據(jù)概念,讓我突然想明白了大數(shù)據(jù)在工業(yè)界興起的
原因:很多規(guī)律在數(shù)據(jù)量大了以后都會變得很顯然,算法再傻B,在超大量數(shù)據(jù)作用下效果也會變得很好。因為開發(fā)牛B算法開銷很大風險很高,而獲取數(shù)據(jù)對不少公司而言很容易。所以會出現(xiàn)一個大數(shù)據(jù)潮流,大家都指著數(shù)據(jù)變成救命法寶。
比如大數(shù)據(jù)的源頭Google,Pagerank其實就是個幌子,真正優(yōu)化Google搜索結(jié)果的其實是人民群眾。結(jié)果被點得多了排名就上去了。算法夠傻B吧。還有Google翻譯也用到了大數(shù)據(jù)技術(shù)。算法是否傻B是和系統(tǒng)復雜度相對的。比如linear regression,數(shù)據(jù)量小用atlab三五行就寫出來了。數(shù)據(jù)量大了就得上Hadoop, Spark,支持運算的平臺比真正的算法要復雜得多得多。但真相果真如此嗎?做過machine learning的人都知道,數(shù)據(jù)量增大對于結(jié)果改善的邊際效應是遞減的,而且往往是指數(shù)遞減的。需要獲得10個百分點的提高,可能需要成千上萬,甚至億萬倍的數(shù)據(jù)量。真是有點愚公移山的感覺了。
大數(shù)據(jù)的驅(qū)動力背后還有更黑暗的真相:提高barrier to entry。這世上聰明人很多。工業(yè)界忽悠算法其實是最危險的。因為算法的發(fā)明往往是單槍匹馬干的。如果一個大公司建立在一個算法的基礎之上,豈不是有被但強匹馬干掉的危險?特別是學術(shù)界雖然不濟,幾百年才出一個牛頓愛因斯坦這樣的人物,但方法論一直是正確的,難保不出一兩個真正管用的新算法?,F(xiàn)在告訴你,你沒個一千臺機器就沒法做研究,把智力門檻轉(zhuǎn)換成資本門檻,并且搞一個虛無飄渺的概念,把funding標準從科研水準轉(zhuǎn)換成忽悠水準。以此打擊真正的科學研究,試圖多維持幾年大公司的盈利。其用心不可不謂險惡。
此計一出,大合那些腦子已經(jīng)使不動了的學霸的心意,于是大數(shù)據(jù)一夜之間就火了。
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13981.html