語(yǔ)音識(shí)別有望迎拐點(diǎn) 辨識(shí)技術(shù)加速完善

責(zé)任編輯：editor006 |來(lái)源：企業(yè)網(wǎng)D1Net 2016-12-08 16:21:34 本文摘自：上海證券報(bào)

美國(guó)麻省理工近日消息，麻省理工計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室研發(fā)了新的聲音識(shí)別系統(tǒng)，比起上一代聲音識(shí)別系統(tǒng)正確率提高了15%。　　

場(chǎng)景聲音辨識(shí)技術(shù)加速完善語(yǔ)音識(shí)別有望迎拐點(diǎn)

　　場(chǎng)景聲音辨識(shí)技術(shù)加速完善語(yǔ)音識(shí)別有望迎拐點(diǎn)

近年來(lái)人工智能系統(tǒng)在語(yǔ)音和圖像識(shí)別領(lǐng)域已有較成熟的算法，但在嘈雜環(huán)境下的聲音辨識(shí)能力相對(duì)較弱。此次研究人員利用視覺(jué)和聲音的自然同步，在原有數(shù)據(jù)庫(kù)中導(dǎo)入大量視頻信息，結(jié)合新算法對(duì)聲音識(shí)別系統(tǒng)進(jìn)行測(cè)試。在10個(gè)不同聲音測(cè)試中，該系統(tǒng)獲得了92%的正確率，在50個(gè)聲音測(cè)試中準(zhǔn)確率為74%，而人類(lèi)在相同樣本測(cè)試中的正確率分別為96%和81%。未來(lái)該系統(tǒng)將改善用戶(hù)在戶(hù)外使用語(yǔ)音識(shí)別的體驗(yàn)。

研究人員表示，該系統(tǒng)應(yīng)用潛力巨大，比如無(wú)人駕駛汽車(chē)系統(tǒng)搭載該聲音識(shí)別技術(shù)后，當(dāng)聽(tīng)到救護(hù)車(chē)聲音，無(wú)人駕駛汽車(chē)能更早選擇新的路線(xiàn)規(guī)劃。另外手機(jī)安裝該系統(tǒng)后，用戶(hù)到電影院后該系統(tǒng)通過(guò)周?chē)曇舡h(huán)境判斷電影是否開(kāi)始放映，并自動(dòng)切換成靜音模式。該聲音識(shí)別系統(tǒng)將在本周召開(kāi)的國(guó)際神經(jīng)信息處理系統(tǒng)大會(huì)(NIPS)上進(jìn)行展示。

作為人工智能最重要的技術(shù)之一，國(guó)外語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率已基本達(dá)到人類(lèi)的水平。微軟旗下最新語(yǔ)音識(shí)別系統(tǒng)的識(shí)別錯(cuò)誤率僅為5.9%，這和專(zhuān)業(yè)速記員將對(duì)話(huà)轉(zhuǎn)錄成文字的最低錯(cuò)誤率一致。而微軟也在一年前將語(yǔ)音識(shí)別系統(tǒng)的深度學(xué)習(xí)算法進(jìn)行開(kāi)源，使其他人工智能產(chǎn)品通過(guò)該算法擁有語(yǔ)音識(shí)別技術(shù)。海外市場(chǎng)調(diào)研機(jī)構(gòu)預(yù)計(jì)，未來(lái)幾年全球語(yǔ)音識(shí)別市場(chǎng)規(guī)模有望突破百億美元。

國(guó)內(nèi)的語(yǔ)音識(shí)別技術(shù)也在快速發(fā)展。11月底搜狗和百度分別召開(kāi)發(fā)布會(huì)表示，旗下語(yǔ)音識(shí)別系統(tǒng)正確率已達(dá)到97%左右，同時(shí)有不少智能語(yǔ)音產(chǎn)品支持不同地區(qū)的方言識(shí)別。《2016年互聯(lián)網(wǎng)趨勢(shì)報(bào)告》顯示，近幾年用戶(hù)通過(guò)語(yǔ)音搜索的使用量大幅提升，使用語(yǔ)音的本質(zhì)是解放雙手，而目前全球語(yǔ)音識(shí)別系統(tǒng)依然存在場(chǎng)景辨識(shí)率低等問(wèn)題。隨著場(chǎng)景聲音辨識(shí)技術(shù)的加速完善，語(yǔ)音識(shí)別技術(shù)有望迎來(lái)拐點(diǎn)，未來(lái)發(fā)展空間將進(jìn)一步擴(kuò)大。

關(guān)鍵字：語(yǔ)音識(shí)別系統(tǒng)拐點(diǎn)