精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:CIO人物訪談 → 正文

不以預測為目的的大數(shù)據(jù)都是耍流氓

責任編輯:jcao 作者:曹建菊 |來源:企業(yè)網(wǎng)D1Net  2016-04-05 10:08:43 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

最近與幾位互聯(lián)網(wǎng)行業(yè)的CIO在探討一些關于大數(shù)據(jù)的問題,互聯(lián)網(wǎng)公司應該是國內(nèi)最早研究并應用大數(shù)據(jù)成果的行業(yè)。但面對全國鋪天蓋地的大數(shù)據(jù)熱炒,這幾位CIO只是淡定地說:“沒有應用價值或者不能幫助實現(xiàn)應用價值一切都是空談。”什么是大數(shù)據(jù)?百度詞條給過一些解釋,但大家的解讀各異,我們有必要做些正本清源的工作。

龔才春,中國大數(shù)據(jù)研究專家,中國互聯(lián)網(wǎng)協(xié)會大數(shù)據(jù)工作委員會委員,在中科院研究所、百度、阿里、騰訊等互聯(lián)網(wǎng)企業(yè)均做過大數(shù)據(jù)研究工作。龔才春直言不諱:“很多的大數(shù)據(jù)都是瞎扯,跟大數(shù)據(jù)一毛錢關系都沒有。”

上圖為:中國大數(shù)據(jù)研究專家龔才春

龔才春從大數(shù)據(jù)產(chǎn)生,大數(shù)據(jù)概念,大數(shù)據(jù)思維,以及可能的趨勢和應用四個方面進行了分析和闡述。

大數(shù)據(jù)產(chǎn)生

隨著信息存儲、信息分析、信息傳送能力的不斷提升,使得目前無論有多強的處理能力,便能產(chǎn)生多少數(shù)據(jù),有多大的存儲空間,數(shù)據(jù)便能占據(jù)多大的存儲空間,技術為數(shù)據(jù)的產(chǎn)生提供了前提。此外,互聯(lián)網(wǎng)也為大數(shù)據(jù)提供了環(huán)境。

云計算則給大數(shù)據(jù)提供了一個契機,數(shù)據(jù)開始從PC上,從個人的移動硬盤上慢慢往云端存儲,只有云端數(shù)據(jù)經(jīng)過統(tǒng)一存儲,統(tǒng)一分析,統(tǒng)一挖掘才有可能。因此,云計算推進了大數(shù)據(jù)的歷程。

物聯(lián)網(wǎng)加速了大數(shù)據(jù)的發(fā)展,包括人與人,人與物,物與物的鏈接,手上戴的手環(huán),讓人與物聯(lián)接;車聯(lián)網(wǎng),讓這輛汽車跟那輛汽車聯(lián)接,實現(xiàn)物與物的聯(lián)接。當任何物體都能產(chǎn)生數(shù)據(jù)的時候,數(shù)據(jù)量自然特別龐大。

摩爾定律同樣適用于大數(shù)據(jù)領域,即最近兩年產(chǎn)生的數(shù)據(jù)是過去人類歷史上產(chǎn)生數(shù)據(jù)的總和,也就是18個月到兩年的時間內(nèi),便會實現(xiàn)世界數(shù)據(jù)量的翻番。

社交網(wǎng)絡的推動, Internet是一個真真事實客觀存在的網(wǎng)絡,一個客觀存在的世界。距離的虛擬化只是物理距離的虛擬化,社會網(wǎng)絡繼承了人類特有的情緒特性,當社交網(wǎng)絡讓機器有了人類的情感,將變得非常可怕。

舉個例子,如果想與已經(jīng)去世的外婆吃個飯聊個天,在未來是否有可能實現(xiàn)?龔才春認為,這是有可能實現(xiàn)的:“如果把人的一生全部數(shù)字化,通過大數(shù)據(jù)分析、處理和挖掘,完全可以預測我在某種情況下我說了什么話,我的外婆會回答什么話,這時候人類的情緒喜怒悲樂,這些情緒也有可能傳遞給一臺機器。”

麥肯錫給大數(shù)據(jù)的定義是大小超過常規(guī)數(shù)據(jù)庫工具的數(shù)據(jù),但什么叫常規(guī)數(shù)據(jù)庫工具這是沒有定義的。超過數(shù)據(jù)處理能力的數(shù)據(jù)就叫大數(shù)據(jù)嗎?自然也不一定。因此,從大數(shù)據(jù)的屬性上分析會更加合理。

大數(shù)據(jù) 滿足4V+1C

大數(shù)據(jù)必須同時滿足4V+1C這五個條件才能稱之為大數(shù)據(jù)。

首先是Volume,一定要求體量特別大,比如前階段有人將重慶馬拉松做成了一個大數(shù)據(jù)研究,得出的結論一半是重慶人,一半是外地人,這不能稱之為大數(shù)據(jù),一共只有兩萬多人參加了重慶的馬拉松,這個體量不夠大。但林彪當年打遼沈戰(zhàn)役的時候,用十萬人攻打國民黨將領廖耀湘所率的二十萬人,并用這十萬人包圍了一個叫胡家窩棚的小村子,就把敵將最好的指揮官給抓住。就是基于林彪每次打完賬之后,就會讓人匯報繳獲的機槍、步槍、沖鋒槍、手槍等情況,那次小規(guī)模的戰(zhàn)役之后,他發(fā)現(xiàn)當時繳獲的手槍比例特別高,所以林彪才得出那個地方是敵對指揮所的結論。在那個年代,這就是典型的大數(shù)據(jù)應用,但20萬數(shù)據(jù)到現(xiàn)在就不行了。也就是數(shù)據(jù)體量大小與時間有關。數(shù)據(jù)體量與當時的技術及應用場景有關系。

第二、Variety,要求數(shù)據(jù)類型多,重慶的馬拉松比賽類型很簡單,從這點分析也不是大數(shù)據(jù)。一個大數(shù)據(jù)任務,一定要有各種各樣類型的數(shù)據(jù)在一塊處理,包括文本的、音頻的、視頻的等格式化的或者 非格式化的數(shù)據(jù)類型等等。

第三、Velocity,今天的大數(shù)據(jù)在明天就不一定是大數(shù)據(jù),同時,數(shù)據(jù)還應該是動態(tài)的,比如中國有14億人口的大數(shù)據(jù),如果這個數(shù)據(jù)不適時更新,今年處理不了14億數(shù)據(jù),明年就有可能處理。

第四、Value,即數(shù)據(jù)價值, Value應具有兩個特性,一個是商業(yè)價值高,另外,價值密度低。大數(shù)據(jù)就是在金礦上去淘金,金礦上淘金就滿足這兩個條件,淘金一定有商業(yè)價值,因為黃金很貴重,此外,價值密度特別低。因為一個金礦,這個金礦也許有上萬噸的金沙,但是里面也許只有幾百公斤的黃金,所以,它的價值密度特別低。

第五、Complex,需要足夠復雜才能稱之為大數(shù)據(jù),如果腦袋拍一拍就知道,也一定不是大數(shù)據(jù)。比如淘寶說用“大數(shù)據(jù)告訴你:武漢大學男生最浪漫”,原因是武漢大學的男生經(jīng)常給女性買玫瑰,這個因果關系如此簡單,自然也不是大數(shù)據(jù)。

所以大家在市場上見到的所謂大數(shù)據(jù)研究結論,其實都不是大數(shù)據(jù),因為它不能同時滿足這五個特點。

大數(shù)據(jù)思維

大數(shù)據(jù)思維包括以下幾種:

第一、全體思維,或者叫全樣思維。若想知道洞庭湖有多少魚,先買一萬條魚對一萬條魚做一個標記,放到洞庭湖,然后一個月之后撈起來,得到一萬條魚,這就是在小數(shù)據(jù)年代的抽樣,再例如人口普查,也都是利用了抽樣統(tǒng)計的原理。但是現(xiàn)在因為技術足夠強大,可以全過程實時的把所有數(shù)據(jù)都采集過來。

第二、容錯思維,這個世界沒有完美的事情,所有的數(shù)據(jù)都有錯誤,都有不完美,都有虛假。在這種情況下,小數(shù)據(jù)年代采用的是數(shù)據(jù)清洗,大數(shù)據(jù)時代,不必再清廷,因為不完美的數(shù)據(jù),錯誤的數(shù)據(jù),甚至虛假的數(shù)據(jù)更能夠反映它本來的面貌,它就是一種客觀存在。

第三、相關思維,不再是因果關系。這世界上可能比較少存在絕對的因果關系,比如以前認為天鵝就是白色的,但是后來發(fā)現(xiàn)澳大利亞有黑天鵝,因果關系弱,相關關系才是這個世界上的普遍關系,因此,需要樹立相關關系的思維方式。

不以預測為目的的大數(shù)據(jù)都是耍流氓

龔才春說:“不以預測為目的的大數(shù)據(jù)都是耍流氓”。研究表明,世界有94%的事情是可以完全預測的。奧斯卡得獎一共是24個獎項,2013年微軟預測準了19個,2014年21個,2015年預測準了20個,通過對電影上影期間大家對這個電影的評價預測系統(tǒng),最后預測到奧斯卡獎每個獎項的最后得主,這就是大數(shù)據(jù)的威力。

此外,算法也許比你自己更了解你。比如某個職位的匹配,大家都認為HR最專業(yè),結果發(fā)現(xiàn)機器找首選人的準確率較HR尋找侯選率準確率高出20%。一個HR一天只能發(fā)出一萬個邀約,而邀約機器人則能夠發(fā)出250萬至300萬個。而機票價格預測則可以幫助客戶購買機票時每張票費節(jié)省50美元。

世界上第一個大數(shù)據(jù)成功的商業(yè)應用是機票價格的預測。而亞馬遜在這方面的研究也有較大突破。比如在家忽然想吃新疆大棗,便在亞馬遜上下單,五分鐘后送貨上門。這樣的場景已有可能實現(xiàn),因為下單的時候亞馬遜快遞已經(jīng)到樓下了。這便是因為預測,因為對用戶數(shù)據(jù)足夠了解,對和田大棗每年的銷售數(shù)據(jù)足夠了解,對這個片區(qū)這個樓有多少人有多大的概率會吃和田大棗,都已經(jīng)做好了預測,所以這就是大數(shù)據(jù)的魅力,不以預測為目的的大數(shù)據(jù)都是耍流氓!

關鍵字:大數(shù)據(jù)CIO

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

x 不以預測為目的的大數(shù)據(jù)都是耍流氓 掃一掃
分享本文到朋友圈
當前位置:CIO人物訪談 → 正文

不以預測為目的的大數(shù)據(jù)都是耍流氓

責任編輯:jcao 作者:曹建菊 |來源:企業(yè)網(wǎng)D1Net  2016-04-05 10:08:43 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

最近與幾位互聯(lián)網(wǎng)行業(yè)的CIO在探討一些關于大數(shù)據(jù)的問題,互聯(lián)網(wǎng)公司應該是國內(nèi)最早研究并應用大數(shù)據(jù)成果的行業(yè)。但面對全國鋪天蓋地的大數(shù)據(jù)熱炒,這幾位CIO只是淡定地說:“沒有應用價值或者不能幫助實現(xiàn)應用價值一切都是空談。”什么是大數(shù)據(jù)?百度詞條給過一些解釋,但大家的解讀各異,我們有必要做些正本清源的工作。

龔才春,中國大數(shù)據(jù)研究專家,中國互聯(lián)網(wǎng)協(xié)會大數(shù)據(jù)工作委員會委員,在中科院研究所、百度、阿里、騰訊等互聯(lián)網(wǎng)企業(yè)均做過大數(shù)據(jù)研究工作。龔才春直言不諱:“很多的大數(shù)據(jù)都是瞎扯,跟大數(shù)據(jù)一毛錢關系都沒有。”

上圖為:中國大數(shù)據(jù)研究專家龔才春

龔才春從大數(shù)據(jù)產(chǎn)生,大數(shù)據(jù)概念,大數(shù)據(jù)思維,以及可能的趨勢和應用四個方面進行了分析和闡述。

大數(shù)據(jù)產(chǎn)生

隨著信息存儲、信息分析、信息傳送能力的不斷提升,使得目前無論有多強的處理能力,便能產(chǎn)生多少數(shù)據(jù),有多大的存儲空間,數(shù)據(jù)便能占據(jù)多大的存儲空間,技術為數(shù)據(jù)的產(chǎn)生提供了前提。此外,互聯(lián)網(wǎng)也為大數(shù)據(jù)提供了環(huán)境。

云計算則給大數(shù)據(jù)提供了一個契機,數(shù)據(jù)開始從PC上,從個人的移動硬盤上慢慢往云端存儲,只有云端數(shù)據(jù)經(jīng)過統(tǒng)一存儲,統(tǒng)一分析,統(tǒng)一挖掘才有可能。因此,云計算推進了大數(shù)據(jù)的歷程。

物聯(lián)網(wǎng)加速了大數(shù)據(jù)的發(fā)展,包括人與人,人與物,物與物的鏈接,手上戴的手環(huán),讓人與物聯(lián)接;車聯(lián)網(wǎng),讓這輛汽車跟那輛汽車聯(lián)接,實現(xiàn)物與物的聯(lián)接。當任何物體都能產(chǎn)生數(shù)據(jù)的時候,數(shù)據(jù)量自然特別龐大。

摩爾定律同樣適用于大數(shù)據(jù)領域,即最近兩年產(chǎn)生的數(shù)據(jù)是過去人類歷史上產(chǎn)生數(shù)據(jù)的總和,也就是18個月到兩年的時間內(nèi),便會實現(xiàn)世界數(shù)據(jù)量的翻番。

社交網(wǎng)絡的推動, Internet是一個真真事實客觀存在的網(wǎng)絡,一個客觀存在的世界。距離的虛擬化只是物理距離的虛擬化,社會網(wǎng)絡繼承了人類特有的情緒特性,當社交網(wǎng)絡讓機器有了人類的情感,將變得非常可怕。

舉個例子,如果想與已經(jīng)去世的外婆吃個飯聊個天,在未來是否有可能實現(xiàn)?龔才春認為,這是有可能實現(xiàn)的:“如果把人的一生全部數(shù)字化,通過大數(shù)據(jù)分析、處理和挖掘,完全可以預測我在某種情況下我說了什么話,我的外婆會回答什么話,這時候人類的情緒喜怒悲樂,這些情緒也有可能傳遞給一臺機器。”

麥肯錫給大數(shù)據(jù)的定義是大小超過常規(guī)數(shù)據(jù)庫工具的數(shù)據(jù),但什么叫常規(guī)數(shù)據(jù)庫工具這是沒有定義的。超過數(shù)據(jù)處理能力的數(shù)據(jù)就叫大數(shù)據(jù)嗎?自然也不一定。因此,從大數(shù)據(jù)的屬性上分析會更加合理。

大數(shù)據(jù) 滿足4V+1C

大數(shù)據(jù)必須同時滿足4V+1C這五個條件才能稱之為大數(shù)據(jù)。

首先是Volume,一定要求體量特別大,比如前階段有人將重慶馬拉松做成了一個大數(shù)據(jù)研究,得出的結論一半是重慶人,一半是外地人,這不能稱之為大數(shù)據(jù),一共只有兩萬多人參加了重慶的馬拉松,這個體量不夠大。但林彪當年打遼沈戰(zhàn)役的時候,用十萬人攻打國民黨將領廖耀湘所率的二十萬人,并用這十萬人包圍了一個叫胡家窩棚的小村子,就把敵將最好的指揮官給抓住。就是基于林彪每次打完賬之后,就會讓人匯報繳獲的機槍、步槍、沖鋒槍、手槍等情況,那次小規(guī)模的戰(zhàn)役之后,他發(fā)現(xiàn)當時繳獲的手槍比例特別高,所以林彪才得出那個地方是敵對指揮所的結論。在那個年代,這就是典型的大數(shù)據(jù)應用,但20萬數(shù)據(jù)到現(xiàn)在就不行了。也就是數(shù)據(jù)體量大小與時間有關。數(shù)據(jù)體量與當時的技術及應用場景有關系。

第二、Variety,要求數(shù)據(jù)類型多,重慶的馬拉松比賽類型很簡單,從這點分析也不是大數(shù)據(jù)。一個大數(shù)據(jù)任務,一定要有各種各樣類型的數(shù)據(jù)在一塊處理,包括文本的、音頻的、視頻的等格式化的或者 非格式化的數(shù)據(jù)類型等等。

第三、Velocity,今天的大數(shù)據(jù)在明天就不一定是大數(shù)據(jù),同時,數(shù)據(jù)還應該是動態(tài)的,比如中國有14億人口的大數(shù)據(jù),如果這個數(shù)據(jù)不適時更新,今年處理不了14億數(shù)據(jù),明年就有可能處理。

第四、Value,即數(shù)據(jù)價值, Value應具有兩個特性,一個是商業(yè)價值高,另外,價值密度低。大數(shù)據(jù)就是在金礦上去淘金,金礦上淘金就滿足這兩個條件,淘金一定有商業(yè)價值,因為黃金很貴重,此外,價值密度特別低。因為一個金礦,這個金礦也許有上萬噸的金沙,但是里面也許只有幾百公斤的黃金,所以,它的價值密度特別低。

第五、Complex,需要足夠復雜才能稱之為大數(shù)據(jù),如果腦袋拍一拍就知道,也一定不是大數(shù)據(jù)。比如淘寶說用“大數(shù)據(jù)告訴你:武漢大學男生最浪漫”,原因是武漢大學的男生經(jīng)常給女性買玫瑰,這個因果關系如此簡單,自然也不是大數(shù)據(jù)。

所以大家在市場上見到的所謂大數(shù)據(jù)研究結論,其實都不是大數(shù)據(jù),因為它不能同時滿足這五個特點。

大數(shù)據(jù)思維

大數(shù)據(jù)思維包括以下幾種:

第一、全體思維,或者叫全樣思維。若想知道洞庭湖有多少魚,先買一萬條魚對一萬條魚做一個標記,放到洞庭湖,然后一個月之后撈起來,得到一萬條魚,這就是在小數(shù)據(jù)年代的抽樣,再例如人口普查,也都是利用了抽樣統(tǒng)計的原理。但是現(xiàn)在因為技術足夠強大,可以全過程實時的把所有數(shù)據(jù)都采集過來。

第二、容錯思維,這個世界沒有完美的事情,所有的數(shù)據(jù)都有錯誤,都有不完美,都有虛假。在這種情況下,小數(shù)據(jù)年代采用的是數(shù)據(jù)清洗,大數(shù)據(jù)時代,不必再清廷,因為不完美的數(shù)據(jù),錯誤的數(shù)據(jù),甚至虛假的數(shù)據(jù)更能夠反映它本來的面貌,它就是一種客觀存在。

第三、相關思維,不再是因果關系。這世界上可能比較少存在絕對的因果關系,比如以前認為天鵝就是白色的,但是后來發(fā)現(xiàn)澳大利亞有黑天鵝,因果關系弱,相關關系才是這個世界上的普遍關系,因此,需要樹立相關關系的思維方式。

不以預測為目的的大數(shù)據(jù)都是耍流氓

龔才春說:“不以預測為目的的大數(shù)據(jù)都是耍流氓”。研究表明,世界有94%的事情是可以完全預測的。奧斯卡得獎一共是24個獎項,2013年微軟預測準了19個,2014年21個,2015年預測準了20個,通過對電影上影期間大家對這個電影的評價預測系統(tǒng),最后預測到奧斯卡獎每個獎項的最后得主,這就是大數(shù)據(jù)的威力。

此外,算法也許比你自己更了解你。比如某個職位的匹配,大家都認為HR最專業(yè),結果發(fā)現(xiàn)機器找首選人的準確率較HR尋找侯選率準確率高出20%。一個HR一天只能發(fā)出一萬個邀約,而邀約機器人則能夠發(fā)出250萬至300萬個。而機票價格預測則可以幫助客戶購買機票時每張票費節(jié)省50美元。

世界上第一個大數(shù)據(jù)成功的商業(yè)應用是機票價格的預測。而亞馬遜在這方面的研究也有較大突破。比如在家忽然想吃新疆大棗,便在亞馬遜上下單,五分鐘后送貨上門。這樣的場景已有可能實現(xiàn),因為下單的時候亞馬遜快遞已經(jīng)到樓下了。這便是因為預測,因為對用戶數(shù)據(jù)足夠了解,對和田大棗每年的銷售數(shù)據(jù)足夠了解,對這個片區(qū)這個樓有多少人有多大的概率會吃和田大棗,都已經(jīng)做好了預測,所以這就是大數(shù)據(jù)的魅力,不以預測為目的的大數(shù)據(jù)都是耍流氓!

關鍵字:大數(shù)據(jù)CIO

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

電子周刊
回到頂部

關于我們聯(lián)系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 交口县| 徐水县| 鞍山市| 隆安县| 伊金霍洛旗| 建平县| 清水河县| 灵川县| 南召县| 阜新| 额敏县| 米脂县| 双鸭山市| 中方县| 剑川县| 格尔木市| 天台县| 舞阳县| 仁怀市| 房山区| 历史| 平定县| 平山县| 白朗县| 泾阳县| 渝北区| 宿迁市| 石林| 洪江市| 古田县| 花莲县| 奉节县| 南皮县| 潜江市| 花莲市| 井陉县| 都兰县| 离岛区| 布尔津县| 华亭县| 锦屏县|