整個(gè)社會(huì)要習(xí)慣這種思維可能需要很長(zhǎng)時(shí)間,其中也會(huì)出現(xiàn)一些問(wèn)題。
但現(xiàn)在,有必要指出的是,當(dāng)我們?cè)噲D擴(kuò)大數(shù)據(jù)規(guī)模的時(shí)候,要學(xué)會(huì)擁抱混亂。
我們可以在大量數(shù)據(jù)對(duì)計(jì)算機(jī)其他領(lǐng)域進(jìn)步的重要性上看到類(lèi)似的變化。
我們都知道,如摩爾定律所預(yù)測(cè)的,過(guò)去一段時(shí)間里計(jì)算機(jī)的數(shù)據(jù)處理能力上得到了很大的提高。
摩爾定律認(rèn)為,每塊芯片上晶體管的數(shù)量每?jī)赡昃蜁?huì)翻一倍。這使得電腦運(yùn)行更加快速,存儲(chǔ)空間變得更加龐大。
但大家沒(méi)有意識(shí)到的是,驅(qū)動(dòng)各類(lèi)系統(tǒng)的算法也進(jìn)步了——美國(guó)總統(tǒng)科技顧問(wèn)委員會(huì)的報(bào)告顯示,在很多領(lǐng)域這些算法帶來(lái)的進(jìn)步還要?jiǎng)龠^(guò)芯片的進(jìn)步。
然而,社會(huì)從“大數(shù)據(jù)”中所能得到的,并非來(lái)自運(yùn)行更快的芯片或更好的算法,而是更多的數(shù)據(jù)。
由于象棋的規(guī)則家喻戶曉,且走子限制良多,在過(guò)去的幾十年里,象棋算法的變化很小。計(jì)算機(jī)象棋程序總是步步為贏是因?yàn)?/p>
對(duì)殘局掌握得更好了,而之所以能做到這一點(diǎn)也只是因?yàn)橥到y(tǒng)里加入了更多的數(shù)據(jù)。
實(shí)際上,當(dāng)棋盤(pán)上只剩下六枚棋子或更少的時(shí)候,這個(gè)殘局得到了更全面的分析,并且接下來(lái)所有可能的走法都被制入了一個(gè)龐大的數(shù)據(jù)表格。
這個(gè)數(shù)據(jù)表格如果不壓縮的話,會(huì)有一太字節(jié)那么多。所以,計(jì)算機(jī)在這些重要的象棋殘局中表現(xiàn)得完美無(wú)缺和不可戰(zhàn)勝。
大數(shù)據(jù)在多大程度上優(yōu)于算法這個(gè)問(wèn)題在自然語(yǔ)言處理上表現(xiàn)得更加明顯(這是關(guān)于計(jì)算機(jī)如何學(xué)習(xí)和領(lǐng)悟我們?cè)谌粘I钪惺褂谜Z(yǔ)言的學(xué)科方向)。
在2000年的時(shí)候,微軟研究中心的米歇爾.班科和埃里克.布里爾一直在尋求改進(jìn)Word程序中語(yǔ)法檢查的方法。
但是他們不確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點(diǎn)更有效。
所以,在實(shí)施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會(huì)有什么不同的變化。
很多對(duì)計(jì)算機(jī)學(xué)習(xí)算法的研究都建立在百萬(wàn)字左右的語(yǔ)料庫(kù)基礎(chǔ)上。
最后,他們決定往4種常見(jiàn)的算法中逐漸添加數(shù)據(jù),先是一千萬(wàn)字,再都一億字,最后到十億。
結(jié)果有點(diǎn)令人吃驚。
他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高了。
當(dāng)數(shù)據(jù)只有500萬(wàn)的時(shí)候,有一種簡(jiǎn)單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達(dá)10億的時(shí)候,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來(lái)的75%提高到了95%以上。
與之相反地,在少量數(shù)據(jù)情況下運(yùn)行得最好的算法,當(dāng)加入更多的數(shù)據(jù)時(shí),也會(huì)像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會(huì)從86%提高到94%。
后來(lái),班科和布里爾在他們發(fā)表的研究論文中寫(xiě)到:“如此一來(lái),我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語(yǔ)料庫(kù)發(fā)展上。”