91免费福利精品国产,国产在线拍揄自揄视精品不卡,中文字幕亚洲欧美

我為什么反對大數(shù)據(jù)

責任編輯：editor004

2016-04-11 10:56:17

摘自：zhulinu

嘉賓介紹：朱林，一個開發(fā)了17年程序的老程序員，熱愛開發(fā)，有11年的安全開發(fā)經(jīng)驗，現(xiàn)任賽克藍德公司技術(shù)總監(jiān)，從事數(shù)據(jù)分析領(lǐng)域相關(guān)產(chǎn)品的研發(fā)，公司現(xiàn)已開發(fā)一款日志分析產(chǎn)品(SeciLog)。

精彩觀點

在大數(shù)據(jù)時代已經(jīng)到來的時候要用大數(shù)據(jù)思維去發(fā)掘大數(shù)據(jù)的潛在價值

在中國，絕大多數(shù)的公司是沒有太多數(shù)據(jù)的

現(xiàn)實的情況往往是數(shù)據(jù)只能驗證現(xiàn)在，數(shù)據(jù)無法預(yù)見未來

一切不以解決業(yè)務(wù)為出發(fā)點的技術(shù)都是耍流氓

很多時候數(shù)據(jù)并沒有我們想象的這么值錢，尤其是互聯(lián)網(wǎng)上很容易采集到的數(shù)據(jù)

大數(shù)據(jù)應(yīng)該是從小數(shù)據(jù)逐漸演變上去的，是一個正常的生態(tài)，而不是瞬間變化的

聲明

個人言論，本文僅從另一個視角看待大數(shù)據(jù)，如不能理解請一笑而過，勿做無謂的拍磚，僅此而已。

引言

現(xiàn)在很多人都熱衷于把大數(shù)據(jù)放在嘴邊，但你要問一下什么是大數(shù)據(jù)，大數(shù)據(jù)和你有什么關(guān)系?估計很少人能說出個一二三來。

究其原因，一是因為大家對新技術(shù)有著很深的原始渴求，至少在聊天時不會顯得很“土鱉”;二是在工作和生活環(huán)境中真正能參與實踐大數(shù)據(jù)的案例實在太少了。

一、什么是大數(shù)據(jù)

最早提出大數(shù)據(jù)時代到來的是麥肯錫，他說：

“數(shù)據(jù)，已經(jīng)滲透到當今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域，成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用，預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。”

IBM 最早將大數(shù)據(jù)的特征歸納為4個“V”，即：

體量Volume，數(shù)據(jù)體量巨大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)

多樣Variety，數(shù)據(jù)類型繁多。比如，網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。

價值Value，價值密度低，商業(yè)價值高。

快速Velocity，處理速度快。這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。

其實這些V并不能真正說清楚大數(shù)據(jù)的所有特征，下面這張圖對大數(shù)據(jù)的一些相關(guān)特性做出了有效的說明。

bigdata

維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時代》一書中舉了百般例證，都是為了說明一個道理

在大數(shù)據(jù)時代已經(jīng)到來的時候要用大數(shù)據(jù)思維去發(fā)掘大數(shù)據(jù)的潛在價值

書中，作者提及最多的是Google如何利用人們的搜索記錄挖掘數(shù)據(jù)二次利用價值，比如預(yù)測某地流感爆發(fā)的趨勢;

Amazon如何利用用戶的購買和瀏覽歷史數(shù)據(jù)進行有針對性的書籍購買推薦，以此有效提升銷售量;

Farecast如何利用過去十年所有的航線機票價格打折數(shù)據(jù)，來預(yù)測用戶購買機票的時機是否合適。

書中提到大數(shù)據(jù)的核心是預(yù)測。有三個思路的轉(zhuǎn)變：

不是隨機樣本，而是全量數(shù)據(jù);

不是精確性，而是混雜型;

不是因果關(guān)系，而是相關(guān)關(guān)系。

二、現(xiàn)狀分析

根據(jù)國家統(tǒng)計局2014年12月16日發(fā)布的《第三次全國經(jīng)濟普查主要數(shù)據(jù)公報》中顯示：

全國共有從事第二產(chǎn)業(yè)和第三產(chǎn)業(yè)活動的法人單位1085.7萬個，占全部企業(yè)法人單位95.6%。從業(yè)人員35602.3萬人，平均每個單位32.8人。

這個數(shù)據(jù)說明了中國絕大多數(shù)的企業(yè)都是中小企業(yè)，在這種情況下，有多少企業(yè)有海量數(shù)據(jù)呢?

我們換個角度再看看以下數(shù)據(jù)，我們搜索一下國內(nèi)幾個典型客戶的網(wǎng)站排名情況(查詢網(wǎng)站是alexa)。

用友：　

yongyou

　　東軟：　　

neusoft

　　綠盟：　　

nsfocus

從中可以看出用友的PV最大，也就是一天75000個，一年的數(shù)據(jù)量也就是2300萬，在加上別的數(shù)據(jù)，數(shù)據(jù)的量級也就是G級別的，還遠未到T級，更別說P級了。

在這個量級上，一臺好點的 PC Server 就可以處理完成大部分的需求，如果考慮到可靠性最多需要兩臺。

通過上面的分析，我們可以發(fā)現(xiàn)在中國，絕大多數(shù)的公司是沒有太多數(shù)據(jù)的。

三、大數(shù)據(jù)的核心價值

bigdata1

《大數(shù)據(jù)時代》中提到的大數(shù)據(jù)的核心價值是預(yù)測，但我們提到大數(shù)據(jù)時，往往提到的都是大數(shù)據(jù)技術(shù)，比如Hadoop、Spark、Storm、Hbase、Hive等等，人們對此的討論總是樂此不彼。

但現(xiàn)實的情況往往是數(shù)據(jù)只能驗證現(xiàn)在，數(shù)據(jù)無法預(yù)見未來!

舉個最近的例子：

大數(shù)據(jù)告訴我們股市暴跌后必然有反彈。于是6.25大跌后，大家都認為周五必然有一個反彈。結(jié)果周五就被莊家們狠狠的教育了一把。

6.28的雙降(降息，降準)，所有都說周一6.29會上漲，可周一中國的莊家讓散戶們明白，數(shù)據(jù)和經(jīng)驗只是你的一廂情愿，他不會給你一絲的喘息機會。

一切不以解決業(yè)務(wù)為出發(fā)點的技術(shù)都是耍流氓，計算機技術(shù)的發(fā)展是非常迅速的，往往一個技術(shù)可能沒有多長時間就會被淘汰或者升級。

如果沒有業(yè)務(wù)場景作為支持，存粹的學習大數(shù)據(jù)的技術(shù)是沒有太大價值的，筆者崇尚的是學以致用。

因為大腦有個很明顯的特征是健忘，如果用不到，學這些技術(shù)過一段時間就會忘記，還不如暫時不學，等后面需要用到的時候在學(原理基礎(chǔ)知識等除外)。

四、數(shù)據(jù)真的值錢嗎

很多時候數(shù)據(jù)并沒有我們想象的這么值錢，尤其是互聯(lián)網(wǎng)上很容易采集到的數(shù)據(jù)，比如：爬蟲這個東西。

我一開始不是太懂，但是花點時間，基本上通了，無論是用Python自己寫一個，還是直接用現(xiàn)成的各種軟件，都是很快就可以部署并開始采集。

中國有大量的程序員，還有的稍微懂點編程的計算機愛好者，另外爬蟲軟件的出現(xiàn)可以讓一個新手隨便花點時間就可以學會采集。所以采集的門檻在降低。

另外，數(shù)據(jù)的可復(fù)制性導致其廉價，尤其是非結(jié)構(gòu)性的數(shù)據(jù)，從現(xiàn)在互聯(lián)網(wǎng)上大量的轉(zhuǎn)載文章就可以看出知識的傳播復(fù)制是非常廉價的。

數(shù)據(jù)的利用才是有價值的。比如：

一個老板，他每天看幾十個零散數(shù)據(jù)放到他面前，但是卻沒有把行為數(shù)據(jù)和商業(yè)數(shù)據(jù)的關(guān)系告訴他，有什么用呢?

一個公司CEO，每天看到幾十個數(shù)據(jù)，什么PV、PU、UV等等是沒有意義的。

對于他們來說，只需要知道有問題嗎?問題是什么?有新的發(fā)現(xiàn)嗎?需要做什么?這就行了。

五、大數(shù)據(jù)的泡沫

big1

伯克利的Jordan教授給出了答案，他是機器學習世界范圍內(nèi)最被尊敬的專家之一(下面的翻譯來自知乎上的作者Quinn Sure)。

目前的大數(shù)據(jù)給出的結(jié)果可靠性太低，如果急于應(yīng)用到實際中，就好比是土木工程都沒學好就開始造橋，結(jié)果只能造出“豆腐渣工程”。

一大波“false positive”(假陽性)正在接近，因為數(shù)據(jù)增長的速度不夠支撐我們把大數(shù)據(jù)到處亂用的欲望。作為一個科學，不夠嚴謹(原文是“沒有error bar”)。

不像造橋的土木工程，經(jīng)過多年的積累，明確地能告訴我們什么樣的情況可以造，什么不可以。而大數(shù)據(jù)沒有。

目前在computer vision領(lǐng)域進展還很小，只能在非常有限的范圍內(nèi)識別，比如人臉識別這樣非常具體的引用(雖然這個不是直接說大數(shù)據(jù)，但是可以看出，作者認為真正做到萬物都sensor還很遠，大數(shù)據(jù)的采集能力終究還是有限的)

neural network根本和人腦的neural network不是一回兒事，我們對大腦的理解根本沒到可以引用到計算機科學的程度。

現(xiàn)在deep learning所采用的back propagation技巧，明顯不是大腦的運作方式，network的結(jié)構(gòu)都完全不同，什么對數(shù)據(jù)的模糊性處理已經(jīng)達到人腦的境界云云，主要是媒體扯談。

對他觀點的總結(jié)：

有些媒體為了讓公眾容易理解，打了些比方，但是這種比方造成了太多誤解，進而造成了太多hype(夸張的大肆宣傳)。

大數(shù)據(jù)還是一個沒有足夠嚴謹程度的科學，可能有一定的概率做出一些有用的預(yù)測，但是使用不當，過分過早地依賴，則會造成災(zāi)難性的后果。

很多時候大家過早對一個技術(shù)爆發(fā)熱情，寄希望它可以改變世界，如果短時間沒有成果，有可能熱情一下子轉(zhuǎn)冷又覺得這是個錯誤，加速抽離給這個技術(shù)的資源。

顯然Michael很擔心現(xiàn)在公眾對這個技術(shù)的熱情，并不是基于對這個技術(shù)的理解，從而有可能會經(jīng)歷這樣的態(tài)度轉(zhuǎn)變。但是他認為這個領(lǐng)域是現(xiàn)實存在的，很多重要的應(yīng)用，假以時日，是會創(chuàng)造價值的。但是現(xiàn)在很多媒體宣傳，甚至投資行為，都是泡沫。

六、從小數(shù)據(jù)開始

那怎么做的呢?

從小數(shù)據(jù)開始，小數(shù)據(jù)就是個體化的數(shù)據(jù)，是我們每個個體或組織的數(shù)字化信息。

比如我天天都喝一兩酒，突然有天喝完酒了胃疼，我就想了，這天和之前有何不同?原來，這天喝的酒是個新牌子，可能就是喝了這個新牌子的酒讓我胃疼。

這就是我生活中的“小數(shù)據(jù)”，它不比大數(shù)據(jù)那樣浩瀚繁雜，卻對我自己至關(guān)重要。

現(xiàn)在很多企業(yè)面臨的最大問題不是怎么用大數(shù)據(jù)，而是小數(shù)據(jù)都沒用好的情況下怎么用大數(shù)據(jù)。

大數(shù)據(jù)應(yīng)該是從小數(shù)據(jù)逐漸演變上去的，是一個正常的生態(tài)，而不是瞬間變化的。

首先，要了解自己的企業(yè)，自己所在的行業(yè)的核心是什么。有很多企業(yè)在競爭的過程中，最終不是被現(xiàn)在的競爭對手打敗，而是被很多不是你的競爭對手所打敗。

很簡單的一個例子，大家都認為亞馬遜是做電商的，但這是錯的，它現(xiàn)在最主要的收入來自于云服務(wù)。

所以要找到企業(yè)的核心數(shù)據(jù)，這個是最關(guān)鍵的。只有在這個基礎(chǔ)上，利用分析好這些數(shù)據(jù)，然后在做一些延伸。

其次，再找與內(nèi)部相關(guān)的一些數(shù)據(jù)，去慢慢地成長它。有點像滾雪球，第一層是核心，第二層是外圍相關(guān)的數(shù)據(jù)。第三層是外部機構(gòu)的一些結(jié)構(gòu)化數(shù)據(jù)。第四層是社會化的，以及各種現(xiàn)在所謂的非結(jié)構(gòu)化的數(shù)據(jù)。

這幾層要一層一層地找到它，而且要找到與自己相關(guān)的有價值的東西。這樣你的數(shù)據(jù)才能利用起來。

數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)增長