“21世紀的競爭是數據的競爭,誰掌握數據,誰就掌握未來。”——馬云
不難理解大數據在我們生活的重要性。隨著科技發展,網絡無處不在,存儲信息的本質是數字0和1(至少目前的計算機是如此),因而可以說數據無處不在。
在《大數據思維與決策》中,作者采用大量例子說明近20年來大數據對傳統行業、傳統思維的沖擊,從醫學到教育領域到金融行業再到互聯網,大數據思維的沖擊是史無前例的。
一、回歸方程帶來的沖擊
從前人們的決策幾乎全靠人為經驗判斷,作者在這個問題里舉了“尋找棒球隊員”的例子,傳統的方式是經理人(暫以此名字代表挖掘球員的人)通過觀看無數場(書中有列出具體數字)球賽,觀察球員的每一個細致動作,經理人根據經驗判斷該球員是否有潛力成為球星。該方式代價非常大且人為主觀因素會影響決策正確率。大數據思維則是分析球員歷史訓練及比賽的記錄數據,利用數理統計的回歸方法(必須掌握)分析數據,從而預測有潛力值球員。相對傳統方式,大數據方法成本大大降低,且準確率更高。顯然,新的方式對傳統經理人帶來的沖擊是極大的,新的思想總會被質疑、抗拒。不過最終由一個胖球員不被看好,數據顯示有潛力,最終成為球星的例子證明大數據引導決策是正確的。
正如書中所說,數據比人客觀,且現在大規模數據的獲取更加容易,價格便宜甚至免費?;貧w方法在數據處理中還是十分的有用,必須掌握這一技能。
二、隨機試驗
作者提到的第二個很有用的方法是隨機試驗?;舅枷胧牵?/p>
隨機抽取樣本,控制單一變量,進行試驗,分析試驗數據檢驗哪個方式更加具有價值。
這里采用的例子很多,其中一個就是某一個網站(具體網站名忘了……暫且稱作Test)利用隨機隨機試驗方法為網站開發者提供工具檢測怎樣的界面用戶更加喜歡。例如,某一欄是“收藏”還是“收藏與購買”。 Test利用隨機試驗思想對開發網站采取控制變量檢測,隨機為用戶展示以上兩種方式的開發網站(僅“收藏”與“收藏與購買”的差異),通過統計用戶點擊行為,則可以評估哪種網頁更被用戶喜歡。
隨機試驗思維在大數據下顯得更加有用,文中還列舉了巴西(?具體不記得了)“窮人母親產前補助”、“醫生洗手對手術患者死亡影響”、“某一政策是否正確”等例子說明大數據下隨機試驗的利用。
隨機試驗思想確實是一個很實用的方法,在以后遇到數據處理、數據決策之前應不忘考慮這種方法。
三、大數據決策的弊端
萬物皆有兩面性,大數據決策為我們提供很多快捷、準確的預測。但是,過分依賴數據則讓我們在很多時候得出的結果相差很大。例如,根據某人的歷史數據分析預測下周五會去看電影,然而周末該人不小心骨折住院。盡管數據采集到骨折數據,模型不會因此而改變,因為該數據歷史影響甚微,模型會忽略,仍然會認為該人去看電影。根本原因在于模型不會像人那樣正確考慮到骨折的權值,即使是神經網絡模型(我的理解是至少現在的神經網絡模型還是沒有人那么聰明),計算機的經驗是有限的,盡管他能夠存儲很多內容,不代表他有人的智慧。所以很多情況下,人為的干預是十分重要的。
利用大數據進行決策,人為的經驗還是不可或缺的,權值的設定,參數的調整,初值的設定等這些都是經驗得來的,但是即使是這些經驗,也不能太過依賴,因為數據在變化,世界在變化,以前正確的下一秒隨時錯誤。總的來說,數據與人為經驗相結合,互為促進,至于之間的尺度,估計只能在接觸到該行業多年后才會有所想法吧,現在還是太年輕……
四、大數據下的隱私
隨著科技發展,智能設備越來越普及,信息無處不在,數據無處不在。谷歌等都倡議數據共享,建立人人都可以利用的數據庫。對于數據開發者、數據決策者而言的確是十分有利的。能夠為客戶創造價值,如機票預測是客戶購買實惠機票很好的工具,這種情況客戶也是樂意見到的。然而,一些惡意黑客當然也會因此入侵,獲取用戶數據,對人們生活帶來很多干擾甚至是安全隱患。
所以說,大數據下仍然很多問題,不過利益在驅動,還是會繼續發展。這些書中提到的應用和隱患大都基于美國現狀的考慮。對于國內,確實還是有很大差距。首先應用方面,盡管很多互聯網企業開始發力與大數據開發,但是總體的思維還是比較保守(無可厚非),許多模式幾乎照搬國外,就類似云計算、物聯網,大數據也很多公司只是在搞概念(純靠猜),還有很大的發展空間,必須好好把握好時機。另外,安全隱私,就我個人觀察,國內的隱私意識還是不怎么注重(又是靠個人經驗判斷的,可以看出我的思維也還是傳統的,靠數據說話啊!!!),當然我們肯定會比國外稍微慢,但是再接下來十年,風云變幻,一切就說不準了(又在考慮用數據說話啊,統計和預測十年后哪國更強啊,預測以后行業怎么變幻啊,有點入魔了)。
總而言之,該書舉了許多大數據決策與應用,也確實呈現了大數據時代是真的到來了。然而,這對我而言并沒有很大幫助,這次之前,我就很明確要跟大數據打交道了。本書跟我最大的收獲是,清楚地了解到更具體的各種大數據應用,了解到不同行業大數據的決策思維,了解到回歸思想以及隨機試驗的重要性。當然,本書讓我對大數據有了更深的體會,思維或多或少有些轉變(但是不夠),盡管技術上沒有什么提升,但是其實大數據思維還是很重要的,讓我對很多方面都有了大數據的聯想。
最后,作為物聯網專業,與大數據密不可分,也應該有一些更深的體會。其實大數據也算是物聯網下的一個分支,物聯網包括感知層、網絡層、應用層。感知層的傳感器采集是大數據采集(無處不在),網絡層的數據處理是大數據處理,應用層的應用是大數據決策。現在互聯網中的大數據比物聯網中只是缺少傳感器數據采集部分而已,所以定位到大數據方向還是沒有脫離自己的開始方向。當然,大數據決策絕對不只是網絡的決策,如果把世界的任意信息用數據表示(物聯網),其實也可以說是包括了所有方面。下個浪潮無疑是物聯網,現在只是開始,十年后,世界會變得你完全不認識,如果你沒有具備大數據思維的話,你將被世界淘汰。
至此,算是對該書的閱讀小結,由于時間匆忙,閱讀難免不夠仔細,感想也許片面,至少是我的體會,記錄一下。其實,相關類的數據書籍,我覺得最好還是有過相關項目或工作經歷之后再看或許會有更深入的體會。故不要停止閱讀,不要停止思考!