看完這篇干貨,我不相信你會不收藏。大數據時代,熱文很多,但需要的是冷思考。
大數據已經成為時尚詞匯,理解混亂是必然的。對此的九個思考,沒有邏輯、沒有體系性,純粹是片段式的,目的是提出問題,思考中。心中無“大師”,一切從現象入手,竊以為“大師”一詞僅僅適合于鬼神靈,不適合人。
此思考希冀引起思想碰撞,各種觀點,無論是鼓勵、批評,甚至攻擊,只要發自內心,都能夠促進思索。感謝!結合大家的批評與建議,對一些集中問題點進行一些思考后的再補充。
大數據思考之一
任何一個網站的數據都是人們互聯網行為數據的很小的一個子集,無論這個子集多么全面,分析多么深入,都是子集,不是全集。對于企業來講,競爭對手的數據價值遠遠超過自己網站數據的價值,從量級上,對于所有公司都一樣,自己擁有的數據遠遠小于全集數據。看起來的全數據恰恰是殘缺數據。
補充
一些朋友對“競爭對手的數據價值遠遠超過自己網站數據的價值”的判斷是錯誤的,我虛心接受,知己知彼很重要,實際的意義是“企業的生存關鍵不在于自己如何,而在于競爭對手如何,自己的事情必須做好”。在此前提下,競爭對手的數據價值遠遠超過自己網站數據的價值”。
大數據思考之二
數據量的大幅增加會造成結果的不準確,來源不同的信息混雜會加大數據的混亂程度。研究發現:巨量數據集和細顆粒度的測量會導致出現“錯誤發現”的風險增加。那種認為“假設、檢驗、驗證的科學方法已經過時”的論調,正是大數據時代的混亂與迷茫,人們索性擁抱凱文凱利所稱的混亂。
補充
舍恩伯格在《大數據時代》一書中的提出的被廣泛接納的:大數據“沒有精確只有混雜,沒有因果只有相關”觀點是錯誤的。混雜需要梳理成合理才有分析價值,無論是牛頓、愛因斯坦,還是韋伯的理想類型都是在混雜中找尋分析方法,相關很多時候是沒有找到因果之前的認識,因果與過程理解是研究的核心。
大數據思考之三
互聯網用戶的基本特征、消費行為、上網行為、渠道偏好、行為喜好、生活軌跡與位置等,反映用戶的基本行為規律。體系完整是所有分析性工作的第一步,完整的框架甚至勝過高深的模型。人類的認識最大的危險是不顧后果的運用局部知識。如果只關心自己網站數據,其分析基礎必然是斷裂數據。
補充
斷裂數據的危害會在競爭激烈時日益凸顯,很多互聯網企業以CRM管理系統當成數據挖掘與數據分析系統,觀念是錯誤的,CRM的目的是規范性報表,數據分析與數據挖掘的目的是探索性歸納。
大數據思考之四
現在談到大數據,基本有四個混亂觀念:第一,大數據是全數據,忽視甚至蔑視抽樣;第二,連續數據就是大數據;第三,數據量級大是大數據;第四,數據量大好于量小。對應的是:抽樣數據只要抽樣合理,結論準確;連續只是一個數據結構;大量級的噪音會得出錯誤結論;大小與價值關系不大。
補充
現實互聯網領域被基本關于大數據的書籍所累,觀念十分混亂,實際上,人類積累的數據經驗是一切分析的基礎,包括所謂的海量數據,那幾本書的方法論橫空出世,同時又沒有落地、沒有實際操作經驗積累,誤導性太強。
圖片來源:www.cbdio.com
大數據思考之五
大數據不是新事物,天氣、地震、量子物理、基因、醫學等都是,借鑒他們的方法有益。他們用抽樣調查。互聯網數據挖掘方法論也如此,不同的是更難,因為人的復雜性。既然是關于人的研究就需應用所有研究人的方法梳理大數據。只要懂編程、懂調動數據的人就可以做大數據挖掘的說法是謬誤。
補充
大數據不是新的,只是出現了新的收集資料的快捷方法,所有關于人的研究方式與分析方法應用于大數據是數據挖掘的核心,調動數據的能力僅僅是技術部分,關系類似導演與剪輯。
大數據思考之六
大數據分析中分析構架為第一要著,算法也極為關鍵,在最近的大數據處理中發現:解析網址后的分類是是一個難點,主要有幾個方面,一個千萬人的網絡行為數據一天產生的域名大約50000個,雖然有一些算法,但是混淆、難以辨認,連續更新與判別是分析中的重要步驟,簡單分易,精細分難。
補充
算法依賴于數據的構架,而算法需要真正理解人的行為。
大數據思考之七
算法中,只要包含文本,就必然有兩個關鍵基礎技術:關鍵詞(字典)與語義分析。關鍵詞技術成熟,語義技術是瓶頸,中文語義太難,能解決50%的團隊就不錯了,尤其是社交語言,比如"真可以!"何解?需上下文。希望風投們多鼓勵此類基礎技術研發,突破此瓶頸是大數據挖掘的關鍵點之一。
大數據思考之八
社交數據挖掘中,很多團隊集中在運用推特瀑布思路,就是可視化技術,其構圖精美值得稱道,問題是,其理論還是沿用三十多年前的社會計量法,概念還是局限在點、橋、意見領袖等小群體分析,不適合巨網,突破可視化框架的社交分析需要理論探索和實踐努力。
補充
理解社交的意義比結構展示重要。
大數據思考之九
移動互聯網對社會生活的影響本質是時間與空間的解構,分析這類大數據需要把握這兩點,如果僅僅分析app和網絡使用行為,那么分析上就失去了移動的意義。單純看流量、點擊率等簡單數字無法解決復雜的營銷問題。不創新的延續原有思維模式是人類思考惰性。
補充
互聯網和移動互聯網是相關的兩件事情。