大數據挖掘需要精通數據庫、計算機編程和深厚的統計學基礎,有的甚至要涉及運籌學范疇,是一門復合型的應用科學。大數據的案例現在著實是一抓一大把,比如國外典型的”啤酒與尿布”的案例,在了解數據分析之前,不妨來看看幾個有趣的應用案例。
Case1 數據新聞讓英國撤軍
2010年10月23日《衛報》利用維基解密的數據做了一篇“數據新聞”。將伊拉克戰爭中所有的人員傷亡情況均標注于地圖之上。地圖上一個紅點便代表一次死傷事件,鼠標點擊紅點后彈出的窗口則有詳細的說明:傷亡人數、時間,造成傷亡的具體原因。密布的紅點多達39萬,顯得格外觸目驚心。一經刊出立即引起朝野震動,推動英國最終做出撤出駐伊拉克軍隊的決定。
Case2 大數據與喬布斯癌癥治療
喬布斯是世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用。他得到的不是樣本,而是包括整個基因的數據文檔。醫生按照所有基因按需下藥,最終這種方式幫助喬布斯延長了好幾年的生命。
Case3 Google成功預測冬季流感
2009年,Google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節性流感傳播時期的數據進行比較,并建立一個特定的數學模型。最終google成功預測了2009冬季流感的傳播甚至可以具體到特定的地區和州。
Case4 奢侈品銷售
PRADA 在紐約的旗艦店中每件衣服上都有RFID碼。每當一個顧客拿起一件PRADA進試衣間,RFID會被自動識別。同時,數據會傳至PRADA總部。每一件衣服在哪個城市哪個旗艦店什么時間被拿進試衣間停留多長時間,數據都被存儲起來加以分析。如果有一件衣服銷量很低,以往的作法是直接干掉。但如果RFID傳回的數據顯示這件衣服雖然銷量低,但進試衣間的次數多。那就能另外說明一些問題。也許這件衣服的下場就會截然不同,也許在某個細節的微小改變就會重新創造出一件非常流行的產品。
除了國外這些經常用于商業培訓課程的案例外,數據分析其實并不遙遠,在國內也不乏應用,比如共和國的開國元帥林彪就曾經依靠敏銳的數據嗅覺和軍事天賦,成功搗毀敵營總部。
從 2008年的一個偶然機會第一次接觸“數據挖掘”(DataMining)這個新名詞以來,掐指一算在數據挖掘應用相關領域度過了6年。我的本專業是化工,整天應該與塔、釜、換熱器、化學反應、物料守恒等打交道。開始接觸這個專業的目的是為了利用數據分析的一些功能來優化生產運營,讓企業以更高的效率、更低的成本和更好的質量去運營。那如何可以做到效率更高、成本最低和質量更好,它們的關鍵改善點和控制點在哪里呢?這需要數據積累,需要數據分析,需要數據模型,它們在哪里呢?
2008年時國內企業在數據挖掘應用中摸索起步,遠不如現在大數據火熱。如今大數據最火的商業應用主要集中在互聯網、銀行、電信等領域。基于行業應用限制,我無法接觸到真正的大數據挖掘,但是幸運的是我還是碰到了職業和興趣的重合點。
這幾年的摸索是我職業生涯很重要的一段時光,可能在以后的職業生涯中我觸碰到數據挖掘的機會不會太多,但我覺得有必要將自己一路走來的心得與體會、感悟和挫折整理出來,一則是對自己的這段職業生涯做一個交代,特別是對一路引導、鼓勵和支持我的師友和家人;二則是合理地引導類似我半道出家的學習者,對數據分析有興趣卻沒有深厚的統計學知識和IT功底人士。我相信本書整理出來的內容對于廣大對數據分析應用感興趣的初學者來說都是一種寶貴經驗。在學習數據分析的道路上我深刻認識到一個道理:一個成功的數據分析實踐,核心的因素不是數據分析技術,而是對業務理解和分析思路,這也是當初學習數據分析的初衷,初學者切不可為數據分析而去分析數據。
目前國內的大部分高校還沒有開通數據挖掘這門專業課程。大數據分析需要依靠龐大的數據庫,需要各專業的人士通力合作,是一個團隊作業。類似我們這種半道出家的個人學習者,在不具備團隊協作的條件下,可以在樣本數據的分析下點功夫。樣本數據我們也可以稱之為小數據。因此,書的名稱就定為《大數據時代小數據分析》。