精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

大數據時代你一定要知道的九件事

責任編輯:editor005 作者:劉德寰 |來源:企業網D1Net  2016-08-09 14:30:39 本文摘自:北大社會化媒體研究中心

看完這篇干貨,我不相信你會不收藏。大數據時代,熱文很多,但需要的是冷思考。

大數據已經成為時尚詞匯,理解混亂是必然的。對此的九個思考,沒有邏輯、沒有體系性,純粹是片段式的,目的是提出問題,思考中。心中無“大師”,一切從現象入手,竊以為“大師”一詞僅僅適合于鬼神靈,不適合人。

此思考希冀引起思想碰撞,各種觀點,無論是鼓勵、批評,甚至攻擊,只要發自內心,都能夠促進思索。感謝!結合大家的批評與建議,對一些集中問題點進行一些思考后的再補充。

大數據思考之一

任何一個網站的數據都是人們互聯網行為數據的很小的一個子集,無論這個子集多么全面,分析多么深入,都是子集,不是全集。對于企業來講,競爭對手的數據價值遠遠超過自己網站數據的價值,從量級上,對于所有公司都一樣,自己擁有的數據遠遠小于全集數據。看起來的全數據恰恰是殘缺數據。

補充

一些朋友對“競爭對手的數據價值遠遠超過自己網站數據的價值”的判斷是錯誤的,我虛心接受,知己知彼很重要,實際的意義是“企業的生存關鍵不在于自己如何,而在于競爭對手如何,自己的事情必須做好”。在此前提下,競爭對手的數據價值遠遠超過自己網站數據的價值”。

大數據思考之二

數據量的大幅增加會造成結果的不準確,來源不同的信息混雜會加大數據的混亂程度。研究發現:巨量數據集和細顆粒度的測量會導致出現“錯誤發現”的風險增加。那種認為“假設、檢驗、驗證的科學方法已經過時”的論調,正是大數據時代的混亂與迷茫,人們索性擁抱凱文凱利所稱的混亂。

補充

舍恩伯格在《大數據時代》一書中的提出的被廣泛接納的:大數據“沒有精確只有混雜,沒有因果只有相關”觀點是錯誤的。混雜需要梳理成合理才有分析價值,無論是牛頓、愛因斯坦,還是韋伯的理想類型都是在混雜中找尋分析方法,相關很多時候是沒有找到因果之前的認識,因果與過程理解是研究的核心。

大數據思考之三

互聯網用戶的基本特征、消費行為、上網行為、渠道偏好、行為喜好、生活軌跡與位置等,反映用戶的基本行為規律。體系完整是所有分析性工作的第一步,完整的框架甚至勝過高深的模型。人類的認識最大的危險是不顧后果的運用局部知識。如果只關心自己網站數據,其分析基礎必然是斷裂數據。

補充

斷裂數據的危害會在競爭激烈時日益凸顯,很多互聯網企業以CRM管理系統當成數據挖掘與數據分析系統,觀念是錯誤的,CRM的目的是規范性報表,數據分析與數據挖掘的目的是探索性歸納。

大數據思考之四

現在談到大數據,基本有四個混亂觀念:第一,大數據是全數據,忽視甚至蔑視抽樣;第二,連續數據就是大數據;第三,數據量級大是大數據;第四,數據量大好于量小。對應的是:抽樣數據只要抽樣合理,結論準確;連續只是一個數據結構;大量級的噪音會得出錯誤結論;大小與價值關系不大。

補充

現實互聯網領域被基本關于大數據的書籍所累,觀念十分混亂,實際上,人類積累的數據經驗是一切分析的基礎,包括所謂的海量數據,那幾本書的方法論橫空出世,同時又沒有落地、沒有實際操作經驗積累,誤導性太強。

大數據

  圖片來源:www.cbdio.com

大數據思考之五

大數據不是新事物,天氣、地震、量子物理、基因、醫學等都是,借鑒他們的方法有益。他們用抽樣調查。互聯網數據挖掘方法論也如此,不同的是更難,因為人的復雜性。既然是關于人的研究就需應用所有研究人的方法梳理大數據。只要懂編程、懂調動數據的人就可以做大數據挖掘的說法是謬誤。

補充

大數據不是新的,只是出現了新的收集資料的快捷方法,所有關于人的研究方式與分析方法應用于大數據是數據挖掘的核心,調動數據的能力僅僅是技術部分,關系類似導演與剪輯。

大數據思考之六

大數據分析中分析構架為第一要著,算法也極為關鍵,在最近的大數據處理中發現:解析網址后的分類是是一個難點,主要有幾個方面,一個千萬人的網絡行為數據一天產生的域名大約50000個,雖然有一些算法,但是混淆、難以辨認,連續更新與判別是分析中的重要步驟,簡單分易,精細分難。

補充

算法依賴于數據的構架,而算法需要真正理解人的行為。

大數據思考之七

算法中,只要包含文本,就必然有兩個關鍵基礎技術:關鍵詞(字典)與語義分析。關鍵詞技術成熟,語義技術是瓶頸,中文語義太難,能解決50%的團隊就不錯了,尤其是社交語言,比如"真可以!"何解?需上下文。希望風投們多鼓勵此類基礎技術研發,突破此瓶頸是大數據挖掘的關鍵點之一。

大數據思考之八

社交數據挖掘中,很多團隊集中在運用推特瀑布思路,就是可視化技術,其構圖精美值得稱道,問題是,其理論還是沿用三十多年前的社會計量法,概念還是局限在點、橋、意見領袖等小群體分析,不適合巨網,突破可視化框架的社交分析需要理論探索和實踐努力。

補充

理解社交的意義比結構展示重要。

大數據思考之九

移動互聯網對社會生活的影響本質是時間與空間的解構,分析這類大數據需要把握這兩點,如果僅僅分析app和網絡使用行為,那么分析上就失去了移動的意義。單純看流量、點擊率等簡單數字無法解決復雜的營銷問題。不創新的延續原有思維模式是人類思考惰性。

補充

互聯網和移動互聯網是相關的兩件事情。

關鍵字:數據挖掘凱文凱利大師

本文摘自:北大社會化媒體研究中心

x 大數據時代你一定要知道的九件事 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

大數據時代你一定要知道的九件事

責任編輯:editor005 作者:劉德寰 |來源:企業網D1Net  2016-08-09 14:30:39 本文摘自:北大社會化媒體研究中心

看完這篇干貨,我不相信你會不收藏。大數據時代,熱文很多,但需要的是冷思考。

大數據已經成為時尚詞匯,理解混亂是必然的。對此的九個思考,沒有邏輯、沒有體系性,純粹是片段式的,目的是提出問題,思考中。心中無“大師”,一切從現象入手,竊以為“大師”一詞僅僅適合于鬼神靈,不適合人。

此思考希冀引起思想碰撞,各種觀點,無論是鼓勵、批評,甚至攻擊,只要發自內心,都能夠促進思索。感謝!結合大家的批評與建議,對一些集中問題點進行一些思考后的再補充。

大數據思考之一

任何一個網站的數據都是人們互聯網行為數據的很小的一個子集,無論這個子集多么全面,分析多么深入,都是子集,不是全集。對于企業來講,競爭對手的數據價值遠遠超過自己網站數據的價值,從量級上,對于所有公司都一樣,自己擁有的數據遠遠小于全集數據。看起來的全數據恰恰是殘缺數據。

補充

一些朋友對“競爭對手的數據價值遠遠超過自己網站數據的價值”的判斷是錯誤的,我虛心接受,知己知彼很重要,實際的意義是“企業的生存關鍵不在于自己如何,而在于競爭對手如何,自己的事情必須做好”。在此前提下,競爭對手的數據價值遠遠超過自己網站數據的價值”。

大數據思考之二

數據量的大幅增加會造成結果的不準確,來源不同的信息混雜會加大數據的混亂程度。研究發現:巨量數據集和細顆粒度的測量會導致出現“錯誤發現”的風險增加。那種認為“假設、檢驗、驗證的科學方法已經過時”的論調,正是大數據時代的混亂與迷茫,人們索性擁抱凱文凱利所稱的混亂。

補充

舍恩伯格在《大數據時代》一書中的提出的被廣泛接納的:大數據“沒有精確只有混雜,沒有因果只有相關”觀點是錯誤的。混雜需要梳理成合理才有分析價值,無論是牛頓、愛因斯坦,還是韋伯的理想類型都是在混雜中找尋分析方法,相關很多時候是沒有找到因果之前的認識,因果與過程理解是研究的核心。

大數據思考之三

互聯網用戶的基本特征、消費行為、上網行為、渠道偏好、行為喜好、生活軌跡與位置等,反映用戶的基本行為規律。體系完整是所有分析性工作的第一步,完整的框架甚至勝過高深的模型。人類的認識最大的危險是不顧后果的運用局部知識。如果只關心自己網站數據,其分析基礎必然是斷裂數據。

補充

斷裂數據的危害會在競爭激烈時日益凸顯,很多互聯網企業以CRM管理系統當成數據挖掘與數據分析系統,觀念是錯誤的,CRM的目的是規范性報表,數據分析與數據挖掘的目的是探索性歸納。

大數據思考之四

現在談到大數據,基本有四個混亂觀念:第一,大數據是全數據,忽視甚至蔑視抽樣;第二,連續數據就是大數據;第三,數據量級大是大數據;第四,數據量大好于量小。對應的是:抽樣數據只要抽樣合理,結論準確;連續只是一個數據結構;大量級的噪音會得出錯誤結論;大小與價值關系不大。

補充

現實互聯網領域被基本關于大數據的書籍所累,觀念十分混亂,實際上,人類積累的數據經驗是一切分析的基礎,包括所謂的海量數據,那幾本書的方法論橫空出世,同時又沒有落地、沒有實際操作經驗積累,誤導性太強。

大數據

  圖片來源:www.cbdio.com

大數據思考之五

大數據不是新事物,天氣、地震、量子物理、基因、醫學等都是,借鑒他們的方法有益。他們用抽樣調查。互聯網數據挖掘方法論也如此,不同的是更難,因為人的復雜性。既然是關于人的研究就需應用所有研究人的方法梳理大數據。只要懂編程、懂調動數據的人就可以做大數據挖掘的說法是謬誤。

補充

大數據不是新的,只是出現了新的收集資料的快捷方法,所有關于人的研究方式與分析方法應用于大數據是數據挖掘的核心,調動數據的能力僅僅是技術部分,關系類似導演與剪輯。

大數據思考之六

大數據分析中分析構架為第一要著,算法也極為關鍵,在最近的大數據處理中發現:解析網址后的分類是是一個難點,主要有幾個方面,一個千萬人的網絡行為數據一天產生的域名大約50000個,雖然有一些算法,但是混淆、難以辨認,連續更新與判別是分析中的重要步驟,簡單分易,精細分難。

補充

算法依賴于數據的構架,而算法需要真正理解人的行為。

大數據思考之七

算法中,只要包含文本,就必然有兩個關鍵基礎技術:關鍵詞(字典)與語義分析。關鍵詞技術成熟,語義技術是瓶頸,中文語義太難,能解決50%的團隊就不錯了,尤其是社交語言,比如"真可以!"何解?需上下文。希望風投們多鼓勵此類基礎技術研發,突破此瓶頸是大數據挖掘的關鍵點之一。

大數據思考之八

社交數據挖掘中,很多團隊集中在運用推特瀑布思路,就是可視化技術,其構圖精美值得稱道,問題是,其理論還是沿用三十多年前的社會計量法,概念還是局限在點、橋、意見領袖等小群體分析,不適合巨網,突破可視化框架的社交分析需要理論探索和實踐努力。

補充

理解社交的意義比結構展示重要。

大數據思考之九

移動互聯網對社會生活的影響本質是時間與空間的解構,分析這類大數據需要把握這兩點,如果僅僅分析app和網絡使用行為,那么分析上就失去了移動的意義。單純看流量、點擊率等簡單數字無法解決復雜的營銷問題。不創新的延續原有思維模式是人類思考惰性。

補充

互聯網和移動互聯網是相關的兩件事情。

關鍵字:數據挖掘凱文凱利大師

本文摘自:北大社會化媒體研究中心

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 柳江县| 仙桃市| 哈密市| 崇左市| 邵阳市| 柳林县| 潜江市| 汝南县| 镇巴县| 北辰区| 南京市| 东安县| 黎川县| 开鲁县| 龙胜| 巨鹿县| 大宁县| 抚顺县| 旬阳县| 石泉县| 连江县| 扎囊县| 云浮市| 保亭| 慈溪市| 江陵县| 富蕴县| 安平县| 双辽市| 公主岭市| 东安县| 邵阳县| 固镇县| 天台县| 闸北区| 藁城市| 偃师市| 海兴县| 东明县| 大理市| 屯门区|