毋庸置疑,規(guī)模更大、更新更快的大數(shù)據(jù)擁有深刻的洞察力,也終將帶來(lái)價(jià)值。有些鼓吹者認(rèn)為,隨著數(shù)據(jù)采集和分析工具進(jìn)一步完善,數(shù)據(jù)就能大到可以自己得出結(jié)論。甚至誰(shuí)掌握了大數(shù)據(jù),誰(shuí)就能夠預(yù)知未來(lái)。
這種把大數(shù)據(jù)當(dāng)萬(wàn)靈藥的觀點(diǎn)是危險(xiǎn)的。首先,在低價(jià)值密度的大數(shù)據(jù)中,數(shù)據(jù)往往是混雜的,找到“貨真價(jià)實(shí)”的信息已屬不易,而“知其然,不求知其所以然”,只考慮純粹相關(guān)性,而不注重?cái)?shù)據(jù)與結(jié)論之間的因果關(guān)系的分析方法,在現(xiàn)實(shí)中往往經(jīng)不起推敲。
此外,由于存在樣本誤差和偏差等種種“陷阱”,通過(guò)統(tǒng)計(jì)數(shù)據(jù)來(lái)認(rèn)知現(xiàn)實(shí)世界從來(lái)都不能盡善盡美,而這些不是簡(jiǎn)單的依靠擴(kuò)大樣本規(guī)模就可以避免。比如,理論上可以通過(guò)分析微博上的每一次發(fā)言,推斷出某一事件引發(fā)的公共情緒,但不可忽視的是,微博活躍用戶并不代表更大外延的所有人。
大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,但它并非無(wú)所不能。一方面,我們?cè)诓荒馨髷?shù)據(jù)為“舊瓶裝新酒”的同時(shí),更不能迷信大數(shù)據(jù)為萬(wàn)靈藥。否則,帶著“數(shù)據(jù)自己可以說(shuō)出結(jié)論”的傲慢,不小心就可能掉進(jìn)了數(shù)據(jù)的“陷阱”,從而使大數(shù)據(jù)成為“大錯(cuò)誤”。我們的切實(shí)態(tài)度或許是,在尊重傳統(tǒng)的統(tǒng)計(jì)經(jīng)驗(yàn)基礎(chǔ)上,借助更大規(guī)模的數(shù)據(jù),解決新問(wèn)題,才能期望獲得真正的大價(jià)值。