3月31日有報(bào)道稱,阿里巴巴要把買家行為的“大數(shù)據(jù)”像螞蟻金服一樣向全行業(yè)開放,吸引廣告主。其實(shí),大數(shù)據(jù)是對(duì)于大規(guī)模現(xiàn)象的一種模糊的表達(dá)。這一術(shù)語如今已經(jīng)被企業(yè)家、科學(xué)家、政府和媒體炒得過熱。
大數(shù)據(jù)之所以可以飛速發(fā)展,得益于互聯(lián)網(wǎng)以及各種智能設(shè)備的發(fā)展,人們的行為、位置、生理特征等等,無時(shí)無刻不在生成數(shù)據(jù)被這些設(shè)備所采集。
而大數(shù)據(jù)的核心并不在規(guī)模大,而是它蘊(yùn)含的是計(jì)算和思維方式的轉(zhuǎn)變。大數(shù)據(jù)的推崇者認(rèn)為所有通過數(shù)據(jù)的分析都事正確的;認(rèn)為數(shù)據(jù)捕捉全面,所以可以摒棄過去傳統(tǒng)的抽樣統(tǒng)計(jì)的方法;認(rèn)為人們只需要知道數(shù)據(jù)之間有統(tǒng)計(jì)相關(guān)性就行,數(shù)據(jù)已經(jīng)達(dá)到可以自己做出結(jié)論了。
通過現(xiàn)象看本質(zhì) 不要曲解數(shù)據(jù)
上述這些觀點(diǎn)過于樂觀,事實(shí)并非如此。在我們有了足夠多的數(shù)據(jù)時(shí),往往不能看直接的結(jié)果,需要對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析。比如英國二戰(zhàn)時(shí)期空戰(zhàn)的例子,每次能回來的戰(zhàn)斗機(jī)機(jī)翼上有很多槍眼,于是工程師們就加強(qiáng)防護(hù),但增加了防護(hù)之后,飛機(jī)的損失率反而提高了,于是統(tǒng)計(jì)學(xué)家 Wald改變思維模式,在沒有槍眼的部位加強(qiáng)防護(hù),最后效果很好。
數(shù)據(jù)并非絕對(duì)全面
前段時(shí)間,淘寶做過幾個(gè)基于網(wǎng)購的大數(shù)據(jù)調(diào)查分析,主要以娛樂為主,得出了一些很有趣的結(jié)果。但也不難看出,雖然淘寶的注冊(cè)用戶高達(dá)幾億,但是所統(tǒng)計(jì)的數(shù)據(jù)中,并不是所有用戶都購買了所統(tǒng)計(jì)的產(chǎn)品,也有部分用戶不是用自己賬號(hào)購買商品,淘寶也有很多刷單的情況等等。
不確定的情況很多,喜歡網(wǎng)購的人群是受限制的,他們并不能代表所有的消費(fèi)群體。我們不能說網(wǎng)上的統(tǒng)計(jì)結(jié)果沒有意義,但是也不能夸大這種只有部分代表性的結(jié)果,否則我們可能會(huì)被誤導(dǎo)。
《大數(shù)據(jù)》這本書的聯(lián)合作者,牛津大學(xué)互聯(lián)網(wǎng)中心的Viktor Mayer-Schonberger教授說,“他最喜歡的對(duì)于大數(shù)據(jù)集合的定義是‘N=所有’,在這里不再需要采樣,因?yàn)槲覀冇姓麄€(gè)人群的數(shù)據(jù)。”當(dāng)“N=所有”的時(shí)候確實(shí)不再有采樣偏差的問題,因?yàn)椴蓸右呀?jīng)包含了所有人。
結(jié)語
對(duì)于大數(shù)據(jù),統(tǒng)計(jì)學(xué)家們正爭先恐后的為大數(shù)據(jù)開發(fā)新的工具。這些新的工具當(dāng)然很重要,但它們只有在吸取而不是遺忘過去統(tǒng)計(jì)學(xué)精髓的基礎(chǔ)上才能成功。不能過度崇拜大數(shù)據(jù),要善用大數(shù)據(jù),大數(shù)據(jù)所反映出的結(jié)果是需要人們進(jìn)行科學(xué)的分析和提取的。