精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

數(shù)據(jù)量越多,大數(shù)據(jù)的算法表現(xiàn)越好

責(zé)任編輯:zsheng |來(lái)源:企業(yè)網(wǎng)D1Net  2018-09-12 14:47:13 本文摘自:大數(shù)據(jù)觀察

“大數(shù)據(jù)”通常用概率說(shuō)話,而不是板著“確鑿無(wú)疑”的面孔。

整個(gè)社會(huì)要習(xí)慣這種思維可能需要很長(zhǎng)時(shí)間,其中也會(huì)出現(xiàn)一些問(wèn)題。

但現(xiàn)在,有必要指出的是,當(dāng)我們?cè)噲D擴(kuò)大數(shù)據(jù)規(guī)模的時(shí)候,要學(xué)會(huì)擁抱混亂。

我們可以在大量數(shù)據(jù)對(duì)計(jì)算機(jī)其他領(lǐng)域進(jìn)步的重要性上看到類(lèi)似的變化。

我們都知道,如摩爾定律所預(yù)測(cè)的,過(guò)去一段時(shí)間里計(jì)算機(jī)的數(shù)據(jù)處理能力上得到了很大的提高。

摩爾定律認(rèn)為,每塊芯片上晶體管的數(shù)量每?jī)赡昃蜁?huì)翻一倍。這使得電腦運(yùn)行更加快速,存儲(chǔ)空間變得更加龐大。

但大家沒(méi)有意識(shí)到的是,驅(qū)動(dòng)各類(lèi)系統(tǒng)的算法也進(jìn)步了——美國(guó)總統(tǒng)科技顧問(wèn)委員會(huì)的報(bào)告顯示,在很多領(lǐng)域這些算法帶來(lái)的進(jìn)步還要?jiǎng)龠^(guò)芯片的進(jìn)步。

然而,社會(huì)從“大數(shù)據(jù)”中所能得到的,并非來(lái)自運(yùn)行更快的芯片或更好的算法,而是更多的數(shù)據(jù)。

由于象棋的規(guī)則家喻戶曉,且走子限制良多,在過(guò)去的幾十年里,象棋算法的變化很小。計(jì)算機(jī)象棋程序總是步步為贏是因?yàn)?/p>

對(duì)殘局掌握得更好了,而之所以能做到這一點(diǎn)也只是因?yàn)橥到y(tǒng)里加入了更多的數(shù)據(jù)。

實(shí)際上,當(dāng)棋盤(pán)上只剩下六枚棋子或更少的時(shí)候,這個(gè)殘局得到了更全面的分析,并且接下來(lái)所有可能的走法都被制入了一個(gè)龐大的數(shù)據(jù)表格。

這個(gè)數(shù)據(jù)表格如果不壓縮的話,會(huì)有一太字節(jié)那么多。所以,計(jì)算機(jī)在這些重要的象棋殘局中表現(xiàn)得完美無(wú)缺和不可戰(zhàn)勝。

大數(shù)據(jù)在多大程度上優(yōu)于算法這個(gè)問(wèn)題在自然語(yǔ)言處理上表現(xiàn)得更加明顯(這是關(guān)于計(jì)算機(jī)如何學(xué)習(xí)和領(lǐng)悟我們?cè)谌粘I钪惺褂谜Z(yǔ)言的學(xué)科方向)。

在2000年的時(shí)候,微軟研究中心的米歇爾.班科和埃里克.布里爾一直在尋求改進(jìn)Word程序中語(yǔ)法檢查的方法。

但是他們不確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點(diǎn)更有效。

所以,在實(shí)施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會(huì)有什么不同的變化。

很多對(duì)計(jì)算機(jī)學(xué)習(xí)算法的研究都建立在百萬(wàn)字左右的語(yǔ)料庫(kù)基礎(chǔ)上。

最后,他們決定往4種常見(jiàn)的算法中逐漸添加數(shù)據(jù),先是一千萬(wàn)字,再都一億字,最后到十億。

結(jié)果有點(diǎn)令人吃驚。

他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高了。

當(dāng)數(shù)據(jù)只有500萬(wàn)的時(shí)候,有一種簡(jiǎn)單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達(dá)10億的時(shí)候,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來(lái)的75%提高到了95%以上。

與之相反地,在少量數(shù)據(jù)情況下運(yùn)行得最好的算法,當(dāng)加入更多的數(shù)據(jù)時(shí),也會(huì)像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會(huì)從86%提高到94%。

后來(lái),班科和布里爾在他們發(fā)表的研究論文中寫(xiě)到:“如此一來(lái),我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語(yǔ)料庫(kù)發(fā)展上。”

關(guān)鍵字:數(shù)據(jù)算法

本文摘自:大數(shù)據(jù)觀察

x 數(shù)據(jù)量越多,大數(shù)據(jù)的算法表現(xiàn)越好 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

數(shù)據(jù)量越多,大數(shù)據(jù)的算法表現(xiàn)越好

責(zé)任編輯:zsheng |來(lái)源:企業(yè)網(wǎng)D1Net  2018-09-12 14:47:13 本文摘自:大數(shù)據(jù)觀察

“大數(shù)據(jù)”通常用概率說(shuō)話,而不是板著“確鑿無(wú)疑”的面孔。

整個(gè)社會(huì)要習(xí)慣這種思維可能需要很長(zhǎng)時(shí)間,其中也會(huì)出現(xiàn)一些問(wèn)題。

但現(xiàn)在,有必要指出的是,當(dāng)我們?cè)噲D擴(kuò)大數(shù)據(jù)規(guī)模的時(shí)候,要學(xué)會(huì)擁抱混亂。

我們可以在大量數(shù)據(jù)對(duì)計(jì)算機(jī)其他領(lǐng)域進(jìn)步的重要性上看到類(lèi)似的變化。

我們都知道,如摩爾定律所預(yù)測(cè)的,過(guò)去一段時(shí)間里計(jì)算機(jī)的數(shù)據(jù)處理能力上得到了很大的提高。

摩爾定律認(rèn)為,每塊芯片上晶體管的數(shù)量每?jī)赡昃蜁?huì)翻一倍。這使得電腦運(yùn)行更加快速,存儲(chǔ)空間變得更加龐大。

但大家沒(méi)有意識(shí)到的是,驅(qū)動(dòng)各類(lèi)系統(tǒng)的算法也進(jìn)步了——美國(guó)總統(tǒng)科技顧問(wèn)委員會(huì)的報(bào)告顯示,在很多領(lǐng)域這些算法帶來(lái)的進(jìn)步還要?jiǎng)龠^(guò)芯片的進(jìn)步。

然而,社會(huì)從“大數(shù)據(jù)”中所能得到的,并非來(lái)自運(yùn)行更快的芯片或更好的算法,而是更多的數(shù)據(jù)。

由于象棋的規(guī)則家喻戶曉,且走子限制良多,在過(guò)去的幾十年里,象棋算法的變化很小。計(jì)算機(jī)象棋程序總是步步為贏是因?yàn)?/p>

對(duì)殘局掌握得更好了,而之所以能做到這一點(diǎn)也只是因?yàn)橥到y(tǒng)里加入了更多的數(shù)據(jù)。

實(shí)際上,當(dāng)棋盤(pán)上只剩下六枚棋子或更少的時(shí)候,這個(gè)殘局得到了更全面的分析,并且接下來(lái)所有可能的走法都被制入了一個(gè)龐大的數(shù)據(jù)表格。

這個(gè)數(shù)據(jù)表格如果不壓縮的話,會(huì)有一太字節(jié)那么多。所以,計(jì)算機(jī)在這些重要的象棋殘局中表現(xiàn)得完美無(wú)缺和不可戰(zhàn)勝。

大數(shù)據(jù)在多大程度上優(yōu)于算法這個(gè)問(wèn)題在自然語(yǔ)言處理上表現(xiàn)得更加明顯(這是關(guān)于計(jì)算機(jī)如何學(xué)習(xí)和領(lǐng)悟我們?cè)谌粘I钪惺褂谜Z(yǔ)言的學(xué)科方向)。

在2000年的時(shí)候,微軟研究中心的米歇爾.班科和埃里克.布里爾一直在尋求改進(jìn)Word程序中語(yǔ)法檢查的方法。

但是他們不確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點(diǎn)更有效。

所以,在實(shí)施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會(huì)有什么不同的變化。

很多對(duì)計(jì)算機(jī)學(xué)習(xí)算法的研究都建立在百萬(wàn)字左右的語(yǔ)料庫(kù)基礎(chǔ)上。

最后,他們決定往4種常見(jiàn)的算法中逐漸添加數(shù)據(jù),先是一千萬(wàn)字,再都一億字,最后到十億。

結(jié)果有點(diǎn)令人吃驚。

他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高了。

當(dāng)數(shù)據(jù)只有500萬(wàn)的時(shí)候,有一種簡(jiǎn)單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達(dá)10億的時(shí)候,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來(lái)的75%提高到了95%以上。

與之相反地,在少量數(shù)據(jù)情況下運(yùn)行得最好的算法,當(dāng)加入更多的數(shù)據(jù)時(shí),也會(huì)像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會(huì)從86%提高到94%。

后來(lái),班科和布里爾在他們發(fā)表的研究論文中寫(xiě)到:“如此一來(lái),我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語(yǔ)料庫(kù)發(fā)展上。”

關(guān)鍵字:數(shù)據(jù)算法

本文摘自:大數(shù)據(jù)觀察

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 丽水市| 东宁县| 大渡口区| 富阳市| 商都县| 文成县| 霍邱县| 顺昌县| 南乐县| 宝丰县| 无棣县| 高尔夫| 靖西县| 怀来县| 鹤山市| 彰化市| 望江县| 彰化市| 合江县| 霍城县| 抚松县| 广昌县| 昭觉县| 舟曲县| 高雄市| 察雅县| 中江县| 凤庆县| 旬邑县| 海阳市| 怀安县| 沿河| 广南县| 嘉善县| 工布江达县| 绥江县| 英吉沙县| 伊金霍洛旗| 涞源县| 宿松县| 商都县|