我們再說另一個更嚴重的問題,同樣從一個笑話開始,有這么一個研究結論,就是喝牛奶越多越容易得癌癥。回到東莞遷徙的例子同樣如此,東莞作為一個GDP排在全國前列的小城市,本來就很不平凡,每年吸引的外地打工人口不是一個小數目。
央視2月9日曝光東莞色情業,一石激起千層浪。當晚,一套來自“百度遷徙”大數據分析的網絡圖被熱轉。該圖簡單而直接地顯示了2月9日晚上10點之前8個小時內從東莞遷出及遷入的十大熱門城市。雖然原文沒有明確地進行解讀,但在這個時點網友紛紛轉發,心照不宣地認為這就是一張“嫖客小姐逃離圖”。
從整個事情的流程來看,這是一個非常經典的大數據的應用案例。首先結論來源于數據而且數據足夠大,然后用到了大數據的分析方法,當然這個具體的模型和算法百度幫大家做了,然后用最時尚最酷的可視化方式展現出來,最后從數據的結果推出了實際想要的結論,一切都那么完美。
這個大數據的例子比起很多教科書上的例子還要好。從分析的方法來看,邏輯也是非常嚴密的,要研究的方向是央視曝光之后的影響,這個說得專業一些叫做干預分析。關于影響的可能結果,見仁見智,這個研究選擇了一個公眾非常感興趣的結論,也就是出逃的嫖客的去向。該研究選擇的方法也很到位,直接利用到了百度的遷徙可視化工具,從數據到結論的完整步驟都有了。
那么,在大數據時代,一個嚴密而完善的分析流程是否代表著正確呢?這個問題的答案涉及到了大數據的一個非常重要的本質和誤區,并不是用了大數據就一定有結果。
實際上,不論是大數據還是小數據,數據分析的本質一定是方法要和假設匹配、模型要和數據匹配。我們不用說得那么深奧,就用這個例子的程度來還原一個真正的大數據分析的流程。
首先,這個遷徙圖的數據到底是什么,讀者及“分析師”們真的了解了嗎?根據百度提供的資料,數據來自于LBS(基于地理位置的服務)開放平臺,我們深入探究一下,實際上是來自移動客戶端。百度的開發平臺上寫得很清楚,提供了安卓、Symbian和IP定位的接口,簡單點來說,大家通過移動終端來調用百度地圖或者其他基于百度地圖的服務,會被百度記錄下來,然后利用這些數據進行分析。
但真正用來做遷徙圖的數據是什么?百度有直接告訴公眾嗎?實際上是沒有的。利用接口數據,至少有兩種方式來繪制遷徙的圖形,第一種是通過記錄定位的請求,通過每位用戶在不同時間位置的軌跡來定義一個遷徙過程,第二種是通過路徑規劃接口來記錄真實的遷徙起止點。
第一種方式的好處是數據量大而且是實際發生的位移,壞處就是很難區分旅途的中點和終點。第二種方式的好處是起止點非常明晰,壞處是數據量少而且很多數據是未發生的。其實從已有的資料來看,應該是第一種方式,只是具體的處理細節百度并沒有公布而已。
這種方式深究起來其實問題也很多,比如從武漢到東莞,基本上都要經過咸寧,那么武漢和咸寧流入東莞的客流量如何計算,需要一個明確的定義,百度自然是有的,公眾自然是不知道的,但是從熱傳的那張圖來看,武漢和咸寧都是流入東莞的前十名的城市。
通過這個例子,我只是想說大多數人認為自己了解了大數據中的數據,實際上是沒有了解清楚的,那么這些數據究竟能得出多強的結論,在百度沒有完全披露其所有細節的時候,大眾是沒有辦法了解得很透徹的。
任何細節方面的處理方式不同都可能對結論造成很大的影響。就拿這個簡單的例子來說,百度的這個遷徙地圖并沒有提供足夠的信息供用戶進行深入的分析,僅僅只是展示一個概貌上的趨勢而已,如果強烈地暗示自己只要是利用到了大數據就一定能得到正確的結論,顯然是不對的。
關于數據源的澄清可能比較復雜,后面的解說就沒那么復雜了。我們現在要說的是選擇性樣本的問題。通過前面數據源的介紹,不論是否真正的了解,至少大家能夠理解這個應用的數據只是一部分樣本,說簡單一點只能代表使用移動終端開啟了百度LBS服務的用戶,說復雜一點還和百度計量的口徑相關。在任何時候要用統計的方法得出一個結論顯然是針對總體的,只是我們使用樣本進行推斷而已,樣本的代表性如何決定了結論的質量。
在東莞遷徙事件之前,百度的這個應用就已經很有名了,最初當然是因為春運。關于春運也有個笑話,說某電視臺在火車上問您買到票了嗎,結果得出了所有人都買到票的結論。這個例子所有人都知道是一個笑話,其實就是選擇性樣本偏差的問題。回到東莞遷徙的例子,問題同樣存在,只是大家沒有當作一個笑話而已。
我們再說另一個更嚴重的問題,同樣從一個笑話開始,有這么一個研究結論,就是喝牛奶越多越容易得癌癥。這個結論嚇人一跳,但是如果收集各個區域的牛奶消費量和癌癥比例的數據,哪怕做一個簡單的圖,也可以看出來確實是正相關的。
這里面的問題是什么,相信很多人已經看出來了,那就是遺漏了關鍵因素。一般來說經濟發達的區域牛奶的消費量會比較高,而由于生活節奏和環境污染的原因,癌癥的比例也會比較高,也就是說關鍵的因素是區域經濟是否發達,而不是簡單的牛奶消費量和癌癥的關系。
回到東莞遷徙的例子同樣如此,東莞作為一個GDP排在全國前列的小城市,本來就很不平凡,每年吸引的外地打工人口不是一個小數目。色情業相關的人口數目其實只是一個很小的比例。從量綱來看,央視曝光事件對人口遷移的影響不一定能比得上隨機誤差。
最后我們再回到數據本身,很多讀者看了前十位城市的排名,但是并沒有仔細看其中的比例數值,就拿遷出城市來說,前三位香港、贛州、郴州比例都在十分之一以上,而其他城市的比例非常小,第十名的漳州只有千分之十九,那么糾結于其他的城市實在是沒有意義的。
我們再來看前三甲的三個城市,即使截至寫稿時的查詢(2月10日23點),也仍然是前三甲,說明當天的數據排名并不能證明央視的曝光對時間序列進行了顯著的影響。我們再來看香港、贛州和郴州的遷入數據,前十名居然都沒有東莞,所以說即使這三個城市的遷入數據有什么不尋常的地方,也不一定是東莞造成的。
無論如何,“東莞遷徙”的例子對大數據來說絕對是一個很好的例子,其價值并不在于網傳的結論,而是可以很清楚地解釋一個真正的大數據分析的流程以及平常人們對大數據分析的誤用,大數據分析并不是靈丹妙藥,無論是什么分析都要基于科學的方法,否則會對人們產生強烈的誤導,這就得不償失了。
作者簡介:李艦,Mango Solutions中國區數據總監。如果想他繼續聯系,請關注新浪微博“lijian001”。本文原文首發于微信公共賬號“創媒工場”