精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

今天的大數據就是明天的小數據

責任編輯:王李通

2014-04-20 09:15:16

摘自:和訊網

其實當我們用方法看大數據的時候,我們會發現大數據里面其實有非常多的洞在里面,這個洞不是沒有收取數據?,F實中還有一點我們要放棄一些數據,我們收集數據,從來沒有想過要放棄數據的,我們有多少數據就收集多少數據,因為這個數據可能未來會有用。

北大國家發展研究院20周年暨BiMBA15周年慶典于2014年4月16-21日北京舉辦。和訊網全程報道。阿里巴巴集團副總裁、數據委員會會長車品覺在19日的“大數據與互聯網金融”分論壇上表示,今天的大數據就是明天的小數據,這個是我們在做大數據的人里面都知道的。所以今天我們也許看見我們手上拿著非常大的數據,其實我們也是跑進去數據里面跑馬圈地的時代,當你還以為數據是很大的時候應該想想,其實你現在手上用的數據,只不過是冰山一角而已。在未來我們會看到非常多的手動收集以及被動收集的數據都會出現。

以下為文字實錄:

車品覺:我當時跟我的分析師說,我要知道我5分鐘進來的人到底是誰,到底他們是怎樣的情況。其實我不是一個在臺上會講的人。其實互聯網的數據,在1997年的時候,互聯網剛起來時候,大家都會覺得說(英語),到了2014年你會看見哪有一個網站沒有說(英語)。所以大數據本身它還是有一個另一個(英語)。

其實數據挖掘在很早之前我們就已經有用了,95年的時候,當W95發布的時候,是MV級的量。我們的大數據起碼是一年跟一年比較每年增長2點多倍的數據量,已經到幾百PB機的數量。所以大數據的成本很低,其實一點都不低,當你要設置無限數據的時候,其實它成本并不低。

今天的大數據就是明天的小數據,這個是我們在做大數據的人里面都知道的。所以今天我們也許看見我們手上拿著非常大的數據,其實我們也是跑進去數據里面刨跑馬圈地的時代,當你還以為數據是很大的時候應該想想,其實你現在手上用的數據,只不過是冰山一角而已。在未來我們會看到非常多的手動收集以及被動收集的數據都會出現。

當數據多到覆蓋整個樣本空間的時候,基于樣本的inference的時候這就是大數據。在這個時候,有互聯網,穿戴服務催生很大的量的數據,非結構化的數據的保障,用戶型的數據會顯得更豐富,以及網絡廣告從群發到精準,RTB會出現,這就是大數據的一個比較準確的。你發現今天我們所講的大數據,其實是范例的大數據,當我們有很大量數據的時候我們少是大數據,當然從科學的角度來看,它更多的是用樣本空間的觀點。

4個V,在企業來講我們說可解釋,今天的人越來越聰明了,你必須要解釋,要落地的時候我們要知道,這個數據是可實施的,這個數據是精確穩定的,而且是可以解釋給我們的。這是4個V,就是大數據落地的時候,我們基本上應該要知道的。

過去從新樣本中可以找到特征,實驗了之后得到結果。但是在大數據的時代,我們拿到新樣本的時候,因為我們有一個海量數據的樣本,所以我們今天在大數據里面,我們通常用大量的數據但是簡單的模型,不像過去小數據的時候我們用一個復雜的模型?,F實里面企業其實是很少用大數據的,一般會用大數據來先找到方向,找到方向之后還是用傳統的方法來提煉自己的數據,是交叉使用。數據的圖形里面也有不同的數據模型來闡述結果。但是海量的數據加復雜的模型,我們今天還不知道它會面會怎么樣。

我們從農耕時代,到工業技術革命,到半導體電子,到信息技術,到數據技術,我們阿里經過幾年大數據之后,我們發現過去的幾年,我們做大數據行業的人,我們有很多的工具其實都沒有健全。我們阿里用了很多時間去健全這些工具。我們已經開始建立了一個數據地圖,會用大數據的原數據告訴我這個地圖是從哪里來的。過去我們只是用數據,但是今天我們要知道數據是從哪里來的。

有很多人今天用數據的時候,他并不知道數據是有一個基礎的樓層,你不關注的話出來的結果是不穩定的。包括我們自己,三個月里面很準的,三個月以后就不準了,就是說它是不穩定的。這個應該有幾個月了,數據已經不是你當時所想的數據模型的出現。

過去來講沒有大數據的時候,我們是有問題找數據,今天有大數據的時候,我們是用數據掌找問題。所以我們決策支持部開始變化了,連我的老板都問我,你不能用低端的看一下公司里面的KTI有什么問題嗎?今天我們更多的是以數據找問題的辦法。

當然我們會發現,大數據里面好像又很完美,但是我想跟大家說一個例子,比如說今天早上我看見一間衣服,我在電腦里搜這個衣服,我搜索的時候看見了一個手表,我買了一百塊的手表。在數據庫里面,我們只關注這個人買了一百塊的手表,不會關注他之前早上的時候看見了他個衣服,也沒有人知道其實這個人之所以沒有點搜索的結果,是因為他要開會,也沒有人知道這個人拿著手機來上網的個人,和用電腦上網的他個人是同一個人。當然你也不能識別在PC里面的人是老公還是老婆,有時候他們是用同一個ID的。

其實當我們用方法看大數據的時候,我們會發現大數據里面其實有非常多的洞在里面,這個洞不是沒有收取數據。

現實中還有一點我們要放棄一些數據,我們收集數據,從來沒有想過要放棄數據的,我們有多少數據就收集多少數據,因為這個數據可能未來會有用。但是當數據大到一定程度的時候,我們要放棄一些數據。真正的大數據你不可能無極限的收下去。如果兩年前的淘寶我們買東西的行為,數據的時候,其實到現在為止這個網站已經變了,數據的場景也變了,你的生命周期也變了

忘掉大數據,企業要的是實效數據。你要理解業務的場景,你要有應用數據的能力,你要回答有沒有解決這個問題,以及下次怎么改進。我們講的是數據的生態圈,首先我們使用數據,當我們數據來幫企業做判斷,解決問題的話,我們叫這個數據是數據歡迎你。但是我們都知道業務的人很多是不知道如何來找數據的。

反過來說,我們發現另外一個圈,從無限數據中尋找數據,假設什么數據都可以獲取,就是運營數據,我們企業里面其實做數據的人很多都不知道別人怎么用數據的,所以用的人不知道有什么數據可用,但是做數據的人也不知道別人怎么用他的數據,所以企業里面最困難的是用數據的文化,以及用數據里面的管理,雖然這個閉環的存在,實際上這個閉環轉起來是很困難的。我們公司問我怎么開始用起數據,我一般都說這個圈越小越好,不要搞得很大。

前幾天我跟很資深的一個老手交流,他說企業千萬不要用大數據走歪了,走歪的話是很麻煩的。這是很常見的一個情況。

面對未來,我上個禮拜在公司里面做了一個決定,我把BI部門取消了,數據技術部。原因很簡單,早期的時候我們公司有一堆的數據,有一堆BI的人。一年后我發現,他們很喜歡我,所以他們說我要更多數據,結果我找到BI的人過來。結果大數據的出現,我們現在的圖是這樣的,應付今天的大數據,數據量很大。到底我們是不是要再請一些BI的人,這不可能的。

今天我們的決定,我們要每個業務部門他們要有做數據分析的能力,而不是一個BI部門幫助他們,所以我們要做更多的工具,讓更多的人很容易的找到他所要的數據。

我們數據里面一個非常大的瓶頸叫ETR,從生產數據庫里面把數據給到我們分施類的數據(音)。為什么我們有這么大量的BI的人,是因為當我們做分析的時候,只有商業的人才知道他是怎么看東西的,只要商業的人稍微改了,他會在底層數據再上一來,對我們的工作量來說就很大了。

我記得我剛進公司的時候,KTI改口徑很大,我們有三個月不能用數據,底下的數據全弄一遍,這是從3月到6月中間是沒有精準數據的。還好我電商的行業,3到6月還不是旺季,如果其他公司這樣的做法那就完了。我們所謂的派生維度,你可以從業務的場景來抓,就可以產生一種新的東西。

最后我想跟大家說我在思考,最近我搞兩件事情,大數據的前面有兩個,就是數據的管理層必須要去選擇,一個是存還是不存,這個數據我用,會不會未來有用,未來有用我也要收起來,所以到底是要把它存還是不存。另外一個話題就是開放還是不開放,數據的安全很重要,但是你怎么選擇這個數據是開放的。同時你要很小心,這個數據會不會影響到別人,會不會有侵犯別人的隱私,開放和不開放,存或不存。

數據十誡,這里第7條很重要,大數據安全不安全,你根本不知道這個數據是安全還是不安全。你在控制安全的時候,你怎么知道這兩個數據加起來是非常不安全的,所以你用監管是沒辦法的。當然現在有一些人開始分布式的系統里面,可以去把數據加密,就是在加密的環境下,分布式的系統可以刨除去,這是一個解決辦法。

第十點講讓人做人擅長做事,機器做機器擅長的事。

最后我想跟大家說,其實數據都是實效,在企業來講并沒有什么說大數據的神話在企業,這是我最后想跟大家講的,謝謝大家!

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 什邡市| 东莞市| 五常市| 吴堡县| 历史| 巨野县| 名山县| 马公市| 阿荣旗| 福清市| 东海县| 鱼台县| 鲁甸县| 腾冲县| 天峨县| 射阳县| 苗栗市| 团风县| 二连浩特市| 桂东县| 呼玛县| 丹寨县| 林西县| 贵港市| 晋中市| 津市市| 皋兰县| 玉田县| 博爱县| 兴安县| 周宁县| 集贤县| 全椒县| 深州市| 松桃| 华阴市| 邮箱| 绥宁县| 五峰| 武安市| 泰来县|