Facebook,谷歌或是IBM等一些技術(shù)公司,正忙于兜售“大數(shù)據(jù)”那足以改變世界的能力。大數(shù)據(jù)源于移動設(shè)備,網(wǎng)頁搜索,公民科學(xué)研究,以及網(wǎng)絡(luò)傳感器。在此前都沒有如此巨大且涵蓋面如此之廣的數(shù)據(jù)供應(yīng),這其中甚至能包括網(wǎng)購動態(tài)或癌癥研究。然而,談到數(shù)據(jù)時一些科學(xué)家仍不免小心翼翼,因為更大并不意味著更好。
當(dāng)信息從不同的資源上被截取時,通常會造成信息環(huán)境的缺失,從而導(dǎo)致不可靠的分析結(jié)果。舉例來說,從谷歌2008年啟用谷歌流感趨勢(Google Flu Trends,GFT)服務(wù)以來,其在精確預(yù)測流感等級上時常會遇到困難。一個調(diào)研小組于本周五,在《自然》雜志的《政治論壇》版面發(fā)布了日志,詳細說明了大數(shù)據(jù)工具的不足,以及它所擁有的巨大潛力。
谷歌所設(shè)計的流感數(shù)據(jù)整合器,根據(jù)谷歌搜索,與流感相關(guān)活動相匹配的內(nèi)容,提供全球范圍內(nèi)流感情況的實時監(jiān)控。盡管有一些成就,但在過去兩年中,GFT在美國有過高預(yù)測流感峰值的情況。據(jù)來自于休斯頓大學(xué),東北大學(xué),哈佛大學(xué)的研究者所言,GFT在12-13季度對流感流行趨勢的預(yù)測,做的同11-12季度一樣糟,誤差都超過了百分之五十。此外,從2012年八月至2013年九月,在總共108周的時間里,GFT有100周的時間都過高估計了流感的流行。
《自然》雜志在2013年二月的新聞中報道,GFT預(yù)測類流感病例的求診次數(shù),比美國疾病控制預(yù)防中心(Centers for Disease Control and Prevention (CDC))基于若干實驗室的檢測報告所作出的預(yù)測數(shù)量要高出兩倍。
(《科學(xué)美國人》是自然出版集團的子刊物)
《自然》雜志報導(dǎo),谷歌的軟件所依靠的是“谷歌搜索引擎對于鍵入搜索欄的,與流感相關(guān)的搜索的數(shù)據(jù)挖掘記錄,結(jié)合電腦建模。”。盡管這周為《政治論壇》撰稿的研究人員列舉了許多GFT存在的瑕疵,但是《自然》雜志卻指出GFT的整體工作”幾乎與CDC自身的監(jiān)控數(shù)據(jù)在時間上是匹配的-然而它比CDC所能傳遞數(shù)據(jù)的的時間要快上好幾天。“
谷歌于去年十月一項研究,自我推斷出了在2012-2013的美國流感季中,GFT對于流感的算法(就像最近他們所啟用的谷歌登革熱趨勢(Google Dengue Trends)一樣),容易受到媒體覆蓋范圍提高的影響“。“我們每年都要回顧流感趨勢的模型,從而決定如何進行改進-我們的上一次更新是在先于2013-2014流感季度前的2013年10月。”根據(jù)一位谷歌發(fā)言人的說法。”我們非常希望得到如何改進GFT以便讓它幫助我們更好地預(yù)測流感等級的反饋。
《政治論壇》的研究人員發(fā)現(xiàn),增長的與流感相關(guān)的在線資源的傳輸也會成為這個問題中值得考慮的因素,不過他們質(zhì)疑“上個流感季因媒體刺激而引起的恐慌”是否完全解釋了“為何GFT在超過兩年的時間里都有很大預(yù)測誤差。而更為可能的兇手,是谷歌的搜索算法本身所做出的改變。
這就是研究人員們爭論的核心,他們爭論于這兩者誰對于GFT所犯錯誤來說貢獻更大:算法動態(tài) 和 “大數(shù)據(jù)沙文主義”
GFT的突出特殊搜索內(nèi)容的特別方法,在GFT完全沒有預(yù)測到2009年蔓延全國的非季節(jié)性流感A-H1N1(甲型流感病毒H1N1亞型)后,證明了自己的失敗。“研究人員說道,”總的來說,GFT的最初版本是一部分用作流感探測器,一部分用作冬季探測器。“
大數(shù)據(jù)沙文主義就是“經(jīng)常性地隱含假定,大數(shù)據(jù)是對于傳統(tǒng)數(shù)據(jù)收集和分析的替代,而不是補充。”,研究人員提醒,許多大數(shù)據(jù)工程的錯誤,都是因為他們的設(shè)計并不科學(xué),無法產(chǎn)生有效可靠并對科學(xué)分析負責(zé)的數(shù)據(jù)。而它他們依靠的數(shù)據(jù)往往來自于智能手機,搜索結(jié)果,社交網(wǎng)絡(luò)等資源,而不是細心參診的病人和科學(xué)儀器。
其它的一些研究已經(jīng)顯示了大數(shù)據(jù)的價值,但研究人員意識到,”我們還不能達到完全替代傳統(tǒng)方法和理論的地步。”
他們提醒”將GFT及其它的近實時的健康數(shù)據(jù)結(jié)合的話,可以充分發(fā)揮其價值。“舉例來說,將GFT和延遲的CDC數(shù)據(jù)結(jié)合,并動態(tài)地重新校正GFT,我們就可以充分地提升GFT的表現(xiàn),或是單獨地提升CDC的表現(xiàn).”又比如,在非常地方的層面上呈現(xiàn)流感的流行趨勢這種CDC數(shù)據(jù)無法表現(xiàn)的很好的領(lǐng)域,大數(shù)據(jù)可以成為更好的了解未知事物的有效工具,。
根據(jù)研究人員所說,大數(shù)據(jù)工程也可以通過提升它者復(fù)制自身的能力,來獲得更加透明的利益。像谷歌,推特,F(xiàn)acebook這樣的平臺經(jīng)常會重新設(shè)計他們的軟件。而僅依據(jù)一次數(shù)據(jù)收集所做的研究,是否能通過收集其更早期或更晚期的數(shù)據(jù)來進行重做,仍是一個待解決的問題。