有人說(shuō),大數(shù)據(jù)時(shí)代的到來(lái)改變了傳統(tǒng)的科研方法。無(wú)論是大型望遠(yuǎn)鏡列陣收集回來(lái)的各種宇宙星系圖像,還是從DNA測(cè)序儀形成的各種基因組,或是社交網(wǎng)站的點(diǎn)擊次數(shù)都可以成為數(shù)據(jù)收集目標(biāo),大數(shù)據(jù)已經(jīng)成為科研基礎(chǔ)。但是,澳大利亞新南威爾士大學(xué)生物地理學(xué)高級(jí)講師馬爾特·艾巴赫3月17日在該校網(wǎng)站發(fā)表文章認(rèn)為,這是對(duì)大數(shù)據(jù)的誤解,大數(shù)據(jù)不可能代替?zhèn)鹘y(tǒng)科研方法,只能是傳統(tǒng)科研方法的補(bǔ)充。
數(shù)據(jù)往往被視為科學(xué)實(shí)驗(yàn)成功的基準(zhǔn),擁有的數(shù)據(jù)越多,研究就會(huì)越成功。但是艾巴赫卻不這么認(rèn)為,他對(duì)本報(bào)記者舉例說(shuō),2004—2006年,美國(guó)生物技術(shù)學(xué)家克雷格·文特爾帶領(lǐng)探險(xiǎn)隊(duì)對(duì)北大西洋海洋生物樣本基因組進(jìn)行研究,隨后他斷定發(fā)現(xiàn)了1800種生物。事實(shí)上,他測(cè)試出來(lái)的基因組成千上萬(wàn),但為了能夠把它們真正確定為生物,文特爾和他的團(tuán)隊(duì)對(duì)每個(gè)基因組都進(jìn)行了分析和對(duì)比,并最終給它們命名。所以,從大數(shù)據(jù)角度,文特爾發(fā)現(xiàn)了10.45億組基因,但是卻沒(méi)有10.45億種生物。數(shù)據(jù)的大小不重要,真正能夠達(dá)到科研要求的數(shù)據(jù)才是最重要的。
之前,大數(shù)據(jù)在某些領(lǐng)域也存在預(yù)測(cè)錯(cuò)誤的情況。例如,谷歌公司曾經(jīng)想通過(guò)用戶搜索流感相關(guān)內(nèi)容的次數(shù)和頻率來(lái)預(yù)測(cè)下一次流感到來(lái)的時(shí)間。事實(shí)證明,這種非傳統(tǒng)的數(shù)據(jù)分析方式最終導(dǎo)致谷歌公司錯(cuò)過(guò)了對(duì)2009年流感疫情爆發(fā)的預(yù)告,而對(duì)2012年和2013年流感趨勢(shì)的預(yù)告比真實(shí)的情況嚴(yán)重兩倍。艾巴赫說(shuō),大數(shù)據(jù)預(yù)測(cè)失敗之后,有統(tǒng)計(jì)學(xué)家指責(zé)數(shù)據(jù)采集樣本有偏頗,還有人將失敗的結(jié)果歸咎于谷歌搜索缺乏透明度。而學(xué)者卻沒(méi)有想到可能是因?yàn)槭褂昧朔莻鹘y(tǒng)的數(shù)據(jù)收集方式而導(dǎo)致問(wèn)題的出現(xiàn)。如何正確使用大數(shù)據(jù)應(yīng)該成為大家重視的問(wèn)題,正是因?yàn)閷W(xué)者對(duì)大數(shù)據(jù)存在誤解,才限制了學(xué)者從大數(shù)據(jù)中找到有意義的內(nèi)容。
艾巴赫說(shuō),與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)可以幫助學(xué)者打開探索未知領(lǐng)域的大門,學(xué)者應(yīng)該在適當(dāng)情況下將大數(shù)據(jù)與傳統(tǒng)科研方法結(jié)合,在傳統(tǒng)的科學(xué)研究中融入大數(shù)據(jù)。