《企業(yè)網(wǎng)D1Net》11月29日訊
如今,隨著大數(shù)據(jù)的發(fā)展和影響力的增加,很多人都在贊美大數(shù)據(jù)帶來的巨大價(jià)值,但或許這是因?yàn)榇蠹也⒉徽嬲私獯髷?shù)據(jù)的情況。不時(shí)會(huì)聽到一些專家提醒說,大數(shù)據(jù)也有其不利的一面。
科學(xué)進(jìn)步越來越多地由數(shù)據(jù)來推動(dòng)。海量數(shù)據(jù)給數(shù)據(jù)分析既帶來了機(jī)遇,也構(gòu)成了新的挑戰(zhàn)。
首先,大規(guī)模的數(shù)據(jù)集很有誘惑力,能促使人們展開積極的分析,而且分析者希望能夠從中獲取有獲獎(jiǎng)可能性的科學(xué)發(fā)現(xiàn)。但有時(shí),利用大數(shù)據(jù)意味著最終得到的是糟糕的數(shù)據(jù)。要從大數(shù)據(jù)中得出高見,給計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)推斷方法甚至科學(xué)方法本身帶來了巨大的挑戰(zhàn)。
當(dāng)然,計(jì)算機(jī)領(lǐng)域的科學(xué)家通過開發(fā)出卓越的計(jì)算能力和信息存儲(chǔ)技術(shù),讓大數(shù)據(jù)的積累成為可能。但是收集數(shù)據(jù)及存儲(chǔ)信息與理解這些內(nèi)容并不是一回事。了解大數(shù)據(jù)的真正意義并不等同于對(duì)小數(shù)據(jù)進(jìn)行解讀,就像明白鳥群的行為特征并不能解釋一只孤獨(dú)的海鷗所發(fā)出的叫聲一樣。
標(biāo)準(zhǔn)的統(tǒng)計(jì)檢驗(yàn)和計(jì)算程序原本是要分析從大的群體中提取的小樣本,從而得出科學(xué)推斷。但是大數(shù)據(jù)提供的樣本極大,有時(shí)甚至包括整個(gè)群體或者群體的大部分。任務(wù)之艱巨會(huì)給實(shí)施計(jì)算過程從而完成統(tǒng)計(jì)檢驗(yàn)帶來問題。
許多統(tǒng)計(jì)程序要么是有未知的運(yùn)行時(shí)刻,要么是運(yùn)行時(shí)刻讓該程序無法用于大規(guī)模的數(shù)據(jù)。面對(duì)這種局面,大規(guī)模數(shù)據(jù)的收集者往往不得不求助于臨時(shí)的程序,而這種程序有可能具有糟糕的甚至災(zāi)難性的統(tǒng)計(jì)特性。
聽起來很糟糕。不過還有更糟的。大數(shù)據(jù)樣本不僅需要更多的時(shí)間去分析,它們往往還包含被抽樣的所有個(gè)體的許多不同信息,從統(tǒng)計(jì)學(xué)的角度講,這意味著這些樣本是“高維的”。更多的維度增加了發(fā)現(xiàn)欺騙性關(guān)聯(lián)的風(fēng)險(xiǎn)。比如,在醫(yī)學(xué)研究中,可能會(huì)將某種藥物的療效與病人的身高聯(lián)系在一起。但是這可能僅僅是因?yàn)榇髷?shù)據(jù)包含方方面面的信息,從身高、體重到眼睛的顏色,再到鞋子的尺碼和最喜歡的棒球隊(duì)。需要考慮的維度如此之多,有些維度顯得重要似乎只是出于偶然。
D1Net評(píng)論:
大數(shù)據(jù)高緯度計(jì)算,并非是百利無一害的,高維度帶來的后果也是不容忽視的,其中,高緯度可能會(huì)導(dǎo)致錯(cuò)誤的統(tǒng)計(jì)推斷和錯(cuò)誤的科學(xué)結(jié)論。大數(shù)據(jù)往往是利用眾多技術(shù)和方法,綜合源自多個(gè)渠道、不同時(shí)間的信息而獲得的。為了應(yīng)對(duì)大數(shù)據(jù)帶來的挑戰(zhàn),我們需要新的統(tǒng)計(jì)思路和計(jì)算方法。