信息革命:讓一切事物都數據化
所有可計算的都要計算,所有可測量的都要測量,對那些不可測量的,要想辦法讓其變得可測量。
——伽利略
某些歷史學家稱,人類正在經歷農業革命和工業革命后的第三次革命,即信息革命。IBM著名預測分析科學家科林·席勒形象地表示,信息革命的關鍵就是“讓一切事物都數據化”。在信息時代,你所做的每個在線甚至線下動作都會被記錄再案,無論是商業交易、訪問網站、點擊鏈接、觀看電影、給朋友打電話……都會被有記錄。每天,你的四周都充斥著信息傳遞裝置。移動終端、自動機器以及海運集裝箱,它們會記錄位移信息、交互作用、庫存盤點以及輻射水平。 個人健康系統會記錄你的脈搏以及日常鍛煉情況。現在,大量的桌面應用程序都更新為“云計算”,這使得你在電腦上的每一步操作都被記錄下來。
數據中蘊含著人類行為的基本信息。誠然,數字編碼從深度和廣度上完全捕捉人類經驗,但這并不是問題。企業會記錄那些與其經驗緊密相關的人類行為,因此盡管了解人類日常生活是一項艱巨的任務,但企業界早已率先為預測分析提供了寶貴的原始素材,那就是:從無窮復雜的日常生活中總結規律,然后確定生活中哪些細節最顯著。
世界打開了一個全新的窗口。美國麻省理工學院的經濟學家埃里克·布林約爾松教授將這種對人類行為的大規模記錄、觀察與歷史上另一種具有劃時代意義的觀測工具的問世聯系在一起,“幾百年前,人類發明了顯微鏡,由此可以觀測此前從來不能看到的細胞層面的活動”。《紐約時報》這樣解釋布林約爾松教授的觀點。“這是觀測史上的革命。數據觀測技術就是現代的顯微鏡。”但與用顯微鏡來觀測細小事物不同,我們通過數據觀測來看清此前人類無法統觀的宏大圖景。
數據泛濫
現在,世界上的照片數量超過了板磚數量。
——現代藝術博物館攝影部主任約翰·薩科夫斯基,1976年
現在,YouTube上每秒鐘都會有1小時的視頻內容上傳,而萬維網目前預計有83.2億個網頁。 每小時都有數百個網絡交易。現在,世界上每小時拍攝的照片都要超過照相技術發明之后100年內的照片數量總和,每兩分鐘拍的照片數量要超過19世紀所拍攝的照片數量總和;每天, Facebook上都有超過2億張照片上傳。飛秒攝影技術每秒鐘可拍攝數萬億張圖片,以記錄這個世界(有關每個例子的出處,請登錄網站www.PredictiveNotes.com)。捕捉用戶數據的移動設備超過70億臺。每秒鐘有超過 100 個裝置接入互聯網,而且這個數字還在增長。 思科預測,到2020年,“萬聯網”(Internetof Everything)會連接500億個裝置。
總而言之,數據正在以難以想象的速度膨脹,現在每天新產生的數據量高達 2.5 個艾字節。 一個艾字節是1后面加18個0。1986年,如果把電腦里儲存的所有數據雙面打印出來,其面積將足以覆蓋地球陸地表面這種增長是呈幾何級的,現在,數據總量每三年就會翻一番。
你應該承認,現在,大數據最具權威性。在每篇新聞報道中,在每次科學演示中,在每個分析解決方案的廣告詞中,大數據都是關鍵詞。這是危機,是機遇,是機遇的危機,危機的機遇!
大數據不是真實的存在。數據最激動人心的不是其數量,而是其增長速度。我們會永遠敬畏數據的龐大數量,因為有一點永遠不會變,那就是:今天的數據必然比昨天多。規模是相對的,而不是絕對的。如果我們今天使用“大”,那么很快,我們的形容詞就會不夠用了:“大數據”、“更大數據”、“再大數據” 以及“最大數據”。其實,早在 1975 年,一個名為“國際超大型數據庫大會” 的組織就已成立。在海量數據面前,我們的詞匯量顯得如此匱乏。
那么,接下來的問題是,我們要如何處理這些數據才能獲得最大的價值?
數據效應:數據天生具有預測性
小腿骨連著膝蓋骨
膝蓋骨連著大腿骨
大腿骨連著你的骨盆
——《小骨頭之歌》歌詞
數據簡直鋪天蓋地,但這又如何?誰又能保證這堆企業機構經營的副產品能創造價值呢?這些只不過是無窮無盡的記錄列表,是對過去發生的事物進行的強迫性的記憶堆積。
世上萬物均有關聯,只不過有些是間接關系,這在數據中也有所反映。例如:
? 你的購買行為與你的消費歷史、 在線習慣、 支付方式以及社會交往人群相關。 數據能從這些因素中預測出消費者的行為。
? 你的身體健康狀況與選擇和環境有關, 因此數據能通過小區以及家庭規模等信息來預測你的健康狀態。
? 你對工作的滿意程度與你的工資水平、 表現評定以及升職情況相關, 而數據能反映這些現實。
? 經濟行為與人類情感相關, 正如下文所述, 數據也將反映這種關系。
預測常常從小處入手。預測分析是從預測變量開始的,這是對個人單一值的評測。近期性就是一個常見的變量,表示某人最近一次購物、最近一次犯罪或最近一次發病到現在的時間,越接近現在,觀察對象再次采取行動的概率就越高。許多模型的應用都是從近期表現最活躍的人群開始的,無論是試圖建立聯系、開展犯罪調查還是進行醫療診斷。
與此相似,頻率—描述某人做出相同行為的次數也是常見且富有成效的指標。如果有人此前經常做某事,那么他再次做這件事的概率就會很高。實際上,預測就是根據人的過去行為來預見其未來行為。因此,預測分析模型不僅要靠那些枯燥的基本人口數據,例如住址、性別等,也要涵蓋近期性、頻率、購買行為、經濟行為以及電話和上網等產品使用習慣之類的行為預測變量。這些行為通常是最有價值的,因為我們要預測的就是未來是否還會出現這些行為,這就是通過行為來預測行為的過程。正如哲學家薩特所言:“人的自我由其行為決定。”
預測分析系統會綜合考慮數十項甚至數百項預測變量。 你要把個人的全部已知數據都輸入系統, 然后等著系統運轉。系統內綜合考量這些因素的核心學習技術正是科學的魔力所在。