當(dāng)前位置：大數(shù)據(jù) → 業(yè)界動態(tài) → 正文

大數(shù)據(jù)思維尚未形成

責(zé)任編輯：editor006 |來源：企業(yè)網(wǎng)D1Net 2014-07-09 17:16:10 本文摘自：新營銷

5年前，谷歌的一個研究團(tuán)隊在著名科學(xué)期刊《自然》上發(fā)布了一項令人矚目的研究成果：不需要任何醫(yī)療檢驗結(jié)果，該小組能夠追蹤到當(dāng)時擴(kuò)散在全美的流感趨勢，而且追蹤速度比美國疾病控制中心(CDC)要快得多。谷歌的追蹤只比流感爆發(fā)晚了一天，而CDC卻花了一周甚至更多的時間來匯總一張流感傳播趨勢圖。顯然谷歌的速度更快，因為它通過尋找“在線搜索”和搜索“人是否患有流感”二者之間的相關(guān)性和規(guī)律，成功追蹤到流感傳播的趨勢。

谷歌流感趨勢不僅快速、準(zhǔn)確、成本低，而且不需要任何理論支持。谷歌的工程師沒心思開發(fā)一套假設(shè)理論研究什么樣的詞條可能和疾病有關(guān)，而是挑出5000萬條最靠前的詞條，讓搜索法則自行運(yùn)算，得出結(jié)果。由此，谷歌流感趨勢成為商業(yè)界、技術(shù)界、科學(xué)界具有代表意義的“大數(shù)據(jù)”成功案例。

正如許多流行語一樣，“大數(shù)據(jù)”是一個含糊不明確的詞語，經(jīng)常被人們信手拈來又隨手拋去。有人會特別提到數(shù)據(jù)組的規(guī)模，例如Large Hadron Collider的電腦，一年能夠儲存15 千兆字節(jié)，相當(dāng)于音樂播放1500年留下的數(shù)據(jù)。實際上，吸引了眾多公司注意力的“大數(shù)據(jù)”可以被稱作“尋獲的數(shù)據(jù)”，其發(fā)生在網(wǎng)絡(luò)搜索、信用卡支付、手機(jī)感應(yīng)到最近的電話信號平臺。比如谷歌流感趨勢就是建立在已經(jīng)被尋獲的數(shù)據(jù)上的，這樣的數(shù)據(jù)組可以更龐大。值得注意的是，相對于龐大的規(guī)模，數(shù)據(jù)的收集實際上很便宜。現(xiàn)代社會隨著人們的溝通、休閑和商務(wù)活動都轉(zhuǎn)移到網(wǎng)絡(luò)（包括移動網(wǎng)絡(luò)），生活在以一種十年前難以想象的方式，被記錄和被量化。數(shù)據(jù)點的隨意拼貼，收集起來用于不同的目的，同時可以實時更新。

如何捕捉大數(shù)據(jù)

大數(shù)據(jù)的擁護(hù)者們總結(jié)出了四個結(jié)論，而每一條都存在于“谷歌流感趨勢”的成功案例中：1. 數(shù)據(jù)分析產(chǎn)生了驚人的準(zhǔn)確結(jié)果；2. 每一個數(shù)據(jù)點都可以被捕捉，這使得過去的統(tǒng)計抽樣技術(shù)顯得十分過時；3. 數(shù)據(jù)背后的原因糾結(jié)顯得過時，因為數(shù)據(jù)的相關(guān)性已經(jīng)告訴了我們需要知道的信息；4. 科學(xué)或數(shù)據(jù)模型是不需要的。

雖然大數(shù)據(jù)向科學(xué)家、企業(yè)家以及政府展現(xiàn)出了光明前景，然而這四條理論完全是出于最樂觀、最單純的角度，如果忽略了一些過去的經(jīng)驗教訓(xùn)，它也注定會讓人們失望。在關(guān)于谷歌流感趨勢預(yù)測的文章發(fā)表4年以后，《自然》雜志報道了一則壞消息：在最近的一次流感爆發(fā)中谷歌流感趨勢不起作用了。雖然過去幾年的冬天，谷歌流感趨勢信心滿滿地提供了一系列迅速準(zhǔn)確的流感爆發(fā)情況統(tǒng)計信息。但不知從何時開始，這個模型漸漸失去對流感的靈敏嗅覺。在谷歌的模型數(shù)據(jù)中顯示將有一場嚴(yán)重的流感爆發(fā)，但當(dāng)疾病防治中心最終將漫無邊際但依舊準(zhǔn)確可靠的數(shù)據(jù)送達(dá)時，這些數(shù)據(jù)表明谷歌對流感疾病傳播情況的預(yù)測夸大了近兩倍。

問題是谷歌不知道甚至根本無法知道是什么原因?qū)⑺阉髟~條和流感的傳播聯(lián)系在一起。谷歌的工程師也并沒有試圖搞清楚背后的原因，他們只是簡單地尋找數(shù)據(jù)中的規(guī)律。比起前因后果，他們更在乎數(shù)據(jù)之間的相關(guān)性。這種情況在大數(shù)據(jù)分析中相當(dāng)常見，但要想搞清楚前因后果很困難，不過搞清楚哪些數(shù)據(jù)是相互關(guān)聯(lián)的則成本更低，也更容易。因而，Viktor Mayer- Sch??nberger和Kenneth Cukier在他們的著作《大數(shù)據(jù)》中寫道：“在大數(shù)據(jù)分析中針對因果關(guān)系的探究不會被丟棄，但是它正漸漸撤出數(shù)據(jù)研究的主要基石地位。”

那些沒有理論支持而只著重于數(shù)據(jù)相關(guān)性的分析必然是脆弱且站不住腳的。如果人們不明白表象相關(guān)性背后的事情，那么就不會知道什么原因會導(dǎo)致那種相互關(guān)聯(lián)性的破裂。關(guān)于谷歌流感趨勢失敗的一種解釋，2012年12月的新聞里總是充滿了聳人聽聞的故事，而這些故事激發(fā)了那些健康人群在線搜索的興趣。另一個可能性解釋是，谷歌自身的搜索法朝令夕改，當(dāng)人們輸入信息時，系統(tǒng)會自動提示診斷信息。

在過去的200年里，統(tǒng)計學(xué)家們一直致力于弄清楚是什么阻擋了人們單純地通過數(shù)據(jù)來理解這個世界。雖然當(dāng)前世界數(shù)據(jù)的量更大，傳播速度更快，但是并非意味著過去那些陷阱都已經(jīng)安全處理了，因為事實上它們并沒有消失。

大數(shù)據(jù)的偏差難題

1936年，共和黨人Alfred Landon參加和總統(tǒng)Franklin Delano Roosevelt一起的總統(tǒng)競選，知名雜志《文學(xué)文摘》肩負(fù)起了大選結(jié)果的預(yù)測責(zé)任。雜志社發(fā)起了一次郵政民調(diào)活動，目的在于將測驗送達(dá)1000萬人民手中，這個數(shù)字接近真實選民數(shù)的1/4。回復(fù)如洪水般涌來，雜志社很享受這種大范圍的任務(wù)。在8月末期，報道說：“下周，1000萬名選票中的第一批人將開始經(jīng)歷候選人的第一輪，進(jìn)行三次檢驗，核實，五次交叉分類和匯總。”

在統(tǒng)計了兩個月內(nèi)收回的240萬張選票后，《文學(xué)文摘》最終發(fā)布調(diào)查結(jié)果：Landon將以55：41令人信服地贏得大選，其中有少數(shù)投票傾向于第三方候選人。但是競選最終卻呈現(xiàn)出非常不同的結(jié)果：Roosevelt以61：37的絕對優(yōu)勢大勝Landon。讓《文學(xué)文摘》更郁悶的是，由民意調(diào)查先驅(qū)人物George Gallup實施的一個小范圍調(diào)查得出的結(jié)果卻和最終投票結(jié)果非常接近，成功預(yù)測了Roosevelt將輕松獲勝。由此可見，Gallup先生理解了《文學(xué)文摘》雜志社所不能理解的一些事：當(dāng)談到數(shù)據(jù)時，規(guī)模不代表一切。

大體上來說，民意測驗建立在投票人群的取樣基礎(chǔ)上。這就意味著，民意測驗專家通常需要解決兩件事：取樣錯誤和樣本偏差。樣本錯誤反映了通過偶然方式選擇樣本帶來的風(fēng)險，一個隨機(jī)選擇的民調(diào)樣本并不能反應(yīng)人們的真實觀點，而民意測驗中體現(xiàn)出來的“誤差幅度”也體現(xiàn)了這種風(fēng)險。樣本越大，誤差幅度越小。1000個受訪者的樣本數(shù)據(jù)已經(jīng)足夠成為很多調(diào)查目的的樣本，Gallup先生的民意測驗據(jù)說采納了3000個受訪者樣本。

如果說3000個受訪者樣本帶來的調(diào)查結(jié)果是對的，那么為什么240萬個樣本卻沒有呈現(xiàn)更正確的結(jié)果呢？答案是，取樣錯誤常常會伴隨著一個更危險的因素：樣本偏差。取樣錯誤是因為樣本的隨機(jī)選擇會導(dǎo)致該選擇樣本無法反映民眾的根本意圖；而樣本偏差則是樣本的選擇未經(jīng)過篩選，而隨機(jī)選擇。George Gallup 不辭辛勞地尋到找了一個無偏差的樣本，因為他知道一個無偏差的樣本遠(yuǎn)遠(yuǎn)比一個數(shù)量龐大的樣本更重要。

相反，《文學(xué)文摘》卻忽略了可能產(chǎn)生的樣本偏差問題。一方面，它直接將調(diào)查表格寄給從汽車登記簿和電話本上獲得的人員名單，而這種方式獲得的樣本，至少當(dāng)時在體現(xiàn)真實民意方面是比例失調(diào)的。另一方面，為了緩解問題的嚴(yán)重性，Landon的支持者們樂意于將自己的答案寄回。這兩個偏差因素結(jié)合在一起，使得《文學(xué)文摘》的民意測驗泡湯。因為收集到的數(shù)據(jù)組是那么凌亂，《文學(xué)文摘》即使想要搞清楚數(shù)據(jù)中潛伏著偏差因素也非常困難。此外，因為這些數(shù)據(jù)實在太龐大，一些數(shù)據(jù)分析師似乎認(rèn)為取樣問題根本不值得擔(dān)心。

大數(shù)據(jù)思維的挑戰(zhàn)

《大數(shù)據(jù)》的合著者Viktor Mayer-Sch??nberger教授認(rèn)為，他所傾向的大數(shù)據(jù)組的定義是：N=All。大數(shù)據(jù)前提下無需取樣，我們已擁有具備所有背景的人群。當(dāng)N=All，就說明的確不存在取樣偏差，因為樣本中包含了所有人。但“N=All”是不是對大多數(shù)尋獲數(shù)據(jù)的最佳描述？也許不是。“一個人能夠擁有所有數(shù)據(jù)，我對此表示懷疑。”英國倫敦大學(xué)學(xué)院數(shù)據(jù)統(tǒng)計學(xué)教授、計算機(jī)科學(xué)家Patrick Wolfe如此說。

Twitter就是一個例子。原則上，通過記錄和分析Twitter上的每一條信息，并通過分析結(jié)果判斷公眾輿情是有可能的。事實上，大多數(shù)研究人員都在使用那些大數(shù)據(jù)中的一部分，但是當(dāng)我們可以看到所有Twitter信息，使用者從整體來看并不具備全體民眾的代表性。所以，《數(shù)字常識》一書的作者及數(shù)據(jù)分析師Kaiser Fung提醒，不能簡單地認(rèn)為我們已經(jīng)將所有重要因素考慮在內(nèi)了，“N=All，很多時候只是一個針對數(shù)據(jù)的假設(shè)，而不是事實”。那么，當(dāng)面對一大堆雜亂五章的數(shù)據(jù)信息時，人們更應(yīng)該理清頭緒。

波士頓當(dāng)?shù)匮邪l(fā)的一款智能手機(jī)APP Street Bump,通過手機(jī)的加速度傳感器探測路面上的凹坑，而不需要城市工人通過街面巡查發(fā)現(xiàn)凹坑。隨著波士頓市民紛紛下載該款A(yù)PP并且開著車四處轉(zhuǎn)悠，他們的手機(jī)自動提示市政廳是否需要對城市街道表面進(jìn)行修復(fù)工作。這個過程通過技術(shù)解決難題，創(chuàng)造出了信息量龐大的“數(shù)據(jù)排放”，而這些數(shù)據(jù)正好以一種不可思議的方式解決問題。波士頓政府驕傲地宣稱：“數(shù)據(jù)為這座城市提供了實時的信息監(jiān)控，而這些信息又可以用來解決城市問題和規(guī)劃城市的長期投資項目。”

實際上，Street Bump程序產(chǎn)生的是一張路面凹坑的城市分布圖，這些圖更多是系統(tǒng)地分布于富裕地區(qū)，因為這些地區(qū)有更多人擁有智能手機(jī)。可以說，Street Bump提供了一個N=All的情況，即每部手機(jī)探測到的每一個路面凹坑都能被記錄下來。這和記錄每一個路面凹坑的情況是不一樣的。微軟研究院的科學(xué)家Kate Crawford指出，尋獲數(shù)據(jù)中包含著的系統(tǒng)偏差，需要仔細(xì)思考才能發(fā)現(xiàn)和糾正。大數(shù)據(jù)組看起來具有全面綜合性，但“N=All”常常造成相當(dāng)有迷惑性的錯覺。

目前，極少有案例對于大批量數(shù)據(jù)的分析最終帶來奇跡。劍橋大學(xué)教授David Spiegelhalter談到谷歌翻譯軟件，這是“機(jī)器學(xué)習(xí)能力”的一個典型例子。該軟件是在分析數(shù)以億計的已翻譯作品中，尋找其中可以復(fù)制的翻譯服務(wù)，其“學(xué)習(xí)能力”讓谷歌翻譯軟件呈現(xiàn)讓人難以置信的處理結(jié)果，而不需要預(yù)先編入任何語法規(guī)則。“這是一項了不起的成就。”Spiegelhalter說，因為這項成就是建立在對大數(shù)據(jù)的明智處理的基礎(chǔ)之上。在他看來，谷歌翻譯就是接近于無理論支撐的，完全由數(shù)據(jù)驅(qū)動的數(shù)據(jù)運(yùn)算黑盒子。

但是大數(shù)據(jù)無法解決那些糾纏了統(tǒng)計學(xué)家和科學(xué)家們幾個世紀(jì)的問題：洞察力，情況判斷，以及如何進(jìn)行正確干預(yù)，從而改善系統(tǒng)。通過大數(shù)據(jù)得到這些問題的答案，還需要統(tǒng)計學(xué)發(fā)展的大步邁進(jìn)。“現(xiàn)在我們仿佛又回到了西大荒時代，”倫敦大學(xué)教授Patrick Wolfe說，“聰明上進(jìn)的人會輾轉(zhuǎn)反側(cè)，會想盡方法利用每一種工具從這些數(shù)據(jù)中獲取有利的價值，但是我們現(xiàn)在有點盲目沖動。”統(tǒng)計學(xué)家們正在竭力研究新的方法來抓住大數(shù)據(jù)中蘊(yùn)藏的秘密。這樣的新方法非常關(guān)鍵，但是需立足于過去古老的統(tǒng)計理論基礎(chǔ)之上，這樣新方法才能起作用。

回顧大數(shù)據(jù)的四個信條，如果我們忽略了主動的錯誤訊息，那么很容易高估那些讓人覺得不可思議的高準(zhǔn)確性。“數(shù)據(jù)中的因果關(guān)系已經(jīng)漸漸撤出作為數(shù)據(jù)研究基礎(chǔ)的基石地位”，如果有人這么宣稱，那么沒有關(guān)系，前提是我們是在一個穩(wěn)定的環(huán)境中進(jìn)行數(shù)據(jù)預(yù)測。但是如果世界正處于一個巨變的環(huán)境中（例如正經(jīng)歷流感傳播）或者如果我們自身希望對現(xiàn)實世界做些改變，那就不能這么說了。“因為N=All，取樣偏差不重要”，這種想法在大多數(shù)案例中都不成立。大數(shù)據(jù)時代已經(jīng)到來，但是大數(shù)據(jù)思維尚未形成。現(xiàn)在的挑戰(zhàn)在于解決新的問題，獲得新的答案，但是前提是不要在更大范圍內(nèi)犯過去的統(tǒng)計錯誤。

關(guān)鍵字：谷歌數(shù)據(jù)點流感數(shù)據(jù)信息

熱文