數(shù)據(jù)量越多，大數(shù)據(jù)的算法表現(xiàn)越好

責(zé)任編輯：zsheng |來(lái)源：企業(yè)網(wǎng)D1Net 2018-09-12 14:47:13 本文摘自：大數(shù)據(jù)觀察

“大數(shù)據(jù)”通常用概率說(shuō)話，而不是板著“確鑿無(wú)疑”的面孔。

整個(gè)社會(huì)要習(xí)慣這種思維可能需要很長(zhǎng)時(shí)間，其中也會(huì)出現(xiàn)一些問(wèn)題。

但現(xiàn)在，有必要指出的是，當(dāng)我們?cè)噲D擴(kuò)大數(shù)據(jù)規(guī)模的時(shí)候，要學(xué)會(huì)擁抱混亂。

我們可以在大量數(shù)據(jù)對(duì)計(jì)算機(jī)其他領(lǐng)域進(jìn)步的重要性上看到類(lèi)似的變化。

我們都知道，如摩爾定律所預(yù)測(cè)的，過(guò)去一段時(shí)間里計(jì)算機(jī)的數(shù)據(jù)處理能力上得到了很大的提高。

摩爾定律認(rèn)為，每塊芯片上晶體管的數(shù)量每?jī)赡昃蜁?huì)翻一倍。這使得電腦運(yùn)行更加快速，存儲(chǔ)空間變得更加龐大。

但大家沒(méi)有意識(shí)到的是，驅(qū)動(dòng)各類(lèi)系統(tǒng)的算法也進(jìn)步了——美國(guó)總統(tǒng)科技顧問(wèn)委員會(huì)的報(bào)告顯示，在很多領(lǐng)域這些算法帶來(lái)的進(jìn)步還要?jiǎng)龠^(guò)芯片的進(jìn)步。

然而，社會(huì)從“大數(shù)據(jù)”中所能得到的，并非來(lái)自運(yùn)行更快的芯片或更好的算法，而是更多的數(shù)據(jù)。

由于象棋的規(guī)則家喻戶曉，且走子限制良多，在過(guò)去的幾十年里，象棋算法的變化很小。計(jì)算機(jī)象棋程序總是步步為贏是因?yàn)?/p>

對(duì)殘局掌握得更好了，而之所以能做到這一點(diǎn)也只是因?yàn)橥到y(tǒng)里加入了更多的數(shù)據(jù)。

實(shí)際上，當(dāng)棋盤(pán)上只剩下六枚棋子或更少的時(shí)候，這個(gè)殘局得到了更全面的分析，并且接下來(lái)所有可能的走法都被制入了一個(gè)龐大的數(shù)據(jù)表格。

這個(gè)數(shù)據(jù)表格如果不壓縮的話，會(huì)有一太字節(jié)那么多。所以，計(jì)算機(jī)在這些重要的象棋殘局中表現(xiàn)得完美無(wú)缺和不可戰(zhàn)勝。

大數(shù)據(jù)在多大程度上優(yōu)于算法這個(gè)問(wèn)題在自然語(yǔ)言處理上表現(xiàn)得更加明顯(這是關(guān)于計(jì)算機(jī)如何學(xué)習(xí)和領(lǐng)悟我們?cè)谌粘Ｉ钪惺褂谜Z(yǔ)言的學(xué)科方向)。

在2000年的時(shí)候，微軟研究中心的米歇爾.班科和埃里克.布里爾一直在尋求改進(jìn)Word程序中語(yǔ)法檢查的方法。

但是他們不確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法，還是添加更加細(xì)膩精致的特點(diǎn)更有效。

所以，在實(shí)施這些措施之前，他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù)，看看會(huì)有什么不同的變化。

很多對(duì)計(jì)算機(jī)學(xué)習(xí)算法的研究都建立在百萬(wàn)字左右的語(yǔ)料庫(kù)基礎(chǔ)上。

最后，他們決定往4種常見(jiàn)的算法中逐漸添加數(shù)據(jù)，先是一千萬(wàn)字，再都一億字，最后到十億。

結(jié)果有點(diǎn)令人吃驚。

他們發(fā)現(xiàn)，隨著數(shù)據(jù)的增多，4種算法的表現(xiàn)都大幅提高了。

當(dāng)數(shù)據(jù)只有500萬(wàn)的時(shí)候，有一種簡(jiǎn)單的算法表現(xiàn)得很差，但當(dāng)數(shù)據(jù)達(dá)10億的時(shí)候，它變成了表現(xiàn)最好的，準(zhǔn)確率從原來(lái)的75%提高到了95%以上。

與之相反地，在少量數(shù)據(jù)情況下運(yùn)行得最好的算法，當(dāng)加入更多的數(shù)據(jù)時(shí)，也會(huì)像其他的算法一樣有所提高，但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會(huì)從86%提高到94%。

后來(lái)，班科和布里爾在他們發(fā)表的研究論文中寫(xiě)到：“如此一來(lái)，我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語(yǔ)料庫(kù)發(fā)展上。”

關(guān)鍵字：數(shù)據(jù)算法