當下,各行各業都在大力尋求挖掘、利用大數據之道,科研領域亦不例外。然而,但凡撰寫過學位論文者,都會有這樣的經歷:圍繞某個主題查找了大量的國內外相關研究資料,但在認真研讀后發現,這些資料中真正可用、可信的東西甚少,倒是大量充斥廢話、不著邊際的話和似是而非的數字。這不能不提醒我們,要警惕大數據現象背后的假數據。那么,大科學時代的假數據來自何處?
一是來自主觀故意。今年3月底,英國大型學術醫療科學文獻出版商——現代生物出版公司宣布,撤銷存在同行評議造假的43篇論文。此非個例。2012年,生物科技公司安進發現,在關于癌癥研究的53項重大成果中,只有6項可被復制。本世紀最初10年,應用于臨床的研究專利大約有8萬份被撤銷,因為它們都是錯誤的。
二是來自文本不全或方法不當。過去十幾年間,大陸學人在論證富國與強軍的關系時,幾乎千遍一律地引用一個神話。它來自英國已故經濟學家麥迪森于2001年出版的《世界經濟千年史》一書:“中國清代gdp(國內生產總值)曾長期占據世界第一寶座,1820年時占全球總量的33%(英國為5.2%),直到1900年仍高達11%。”這個神話出現在大量的學術論文、學術著作、教材和講臺上,卻偏偏無人在這個稍加思考就會發現破綻的通用注腳上畫出過問號。直到2013年11月,幾位記者通過追溯神話的出處以及該神話制造的過程和在國外得到的評價,向我們傳遞了這樣一個信息:原來被我們奉若圭臬的麥迪森的gdp數據對比,竟然是“猜測性的”。
三是來自學術淺薄。美國科學計量學家普賴斯曾在上世紀50年代得出科學知識呈指數增長的結論,其依據是各國期刊文獻的數量增長。此后,有關知識爆炸的說法甚囂塵上。現在看,普賴斯的判斷未免草率,因為期刊文獻數量與人類知識量顯然是不能畫等號的,否則就會得出我們撤銷某些期刊就是限制知識增長的荒唐結論。當下,期刊市場早已良莠不齊,魚龍混雜,更不用說那些明碼標價的收費期刊了。
總之,當泥沙俱下且呈雪崩式的大數據襲來時,我們更應保持清醒的頭腦,用中國的古訓來說,就是要防止以目廢心。