美國(guó)麻省理工近日消息,麻省理工計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室研發(fā)了新的聲音識(shí)別系統(tǒng),比起上一代聲音識(shí)別系統(tǒng)正確率提高了15%。
場(chǎng)景聲音辨識(shí)技術(shù)加速完善語(yǔ)音識(shí)別有望迎拐點(diǎn)
近年來(lái)人工智能系統(tǒng)在語(yǔ)音和圖像識(shí)別領(lǐng)域已有較成熟的算法,但在嘈雜環(huán)境下的聲音辨識(shí)能力相對(duì)較弱。此次研究人員利用視覺(jué)和聲音的自然同步,在原有數(shù)據(jù)庫(kù)中導(dǎo)入大量視頻信息,結(jié)合新算法對(duì)聲音識(shí)別系統(tǒng)進(jìn)行測(cè)試。在10個(gè)不同聲音測(cè)試中,該系統(tǒng)獲得了92%的正確率,在50個(gè)聲音測(cè)試中準(zhǔn)確率為74%,而人類(lèi)在相同樣本測(cè)試中的正確率分別為96%和81%。未來(lái)該系統(tǒng)將改善用戶(hù)在戶(hù)外使用語(yǔ)音識(shí)別的體驗(yàn)。
研究人員表示,該系統(tǒng)應(yīng)用潛力巨大,比如無(wú)人駕駛汽車(chē)系統(tǒng)搭載該聲音識(shí)別技術(shù)后,當(dāng)聽(tīng)到救護(hù)車(chē)聲音,無(wú)人駕駛汽車(chē)能更早選擇新的路線(xiàn)規(guī)劃。另外手機(jī)安裝該系統(tǒng)后,用戶(hù)到電影院后該系統(tǒng)通過(guò)周?chē)曇舡h(huán)境判斷電影是否開(kāi)始放映,并自動(dòng)切換成靜音模式。該聲音識(shí)別系統(tǒng)將在本周召開(kāi)的國(guó)際神經(jīng)信息處理系統(tǒng)大會(huì)(NIPS)上進(jìn)行展示。
作為人工智能最重要的技術(shù)之一,國(guó)外語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率已基本達(dá)到人類(lèi)的水平。微軟旗下最新語(yǔ)音識(shí)別系統(tǒng)的識(shí)別錯(cuò)誤率僅為5.9%,這和專(zhuān)業(yè)速記員將對(duì)話(huà)轉(zhuǎn)錄成文字的最低錯(cuò)誤率一致。而微軟也在一年前將語(yǔ)音識(shí)別系統(tǒng)的深度學(xué)習(xí)算法進(jìn)行開(kāi)源,使其他人工智能產(chǎn)品通過(guò)該算法擁有語(yǔ)音識(shí)別技術(shù)。海外市場(chǎng)調(diào)研機(jī)構(gòu)預(yù)計(jì),未來(lái)幾年全球語(yǔ)音識(shí)別市場(chǎng)規(guī)模有望突破百億美元。
國(guó)內(nèi)的語(yǔ)音識(shí)別技術(shù)也在快速發(fā)展。11月底搜狗和百度分別召開(kāi)發(fā)布會(huì)表示,旗下語(yǔ)音識(shí)別系統(tǒng)正確率已達(dá)到97%左右,同時(shí)有不少智能語(yǔ)音產(chǎn)品支持不同地區(qū)的方言識(shí)別。《2016年互聯(lián)網(wǎng)趨勢(shì)報(bào)告》顯示,近幾年用戶(hù)通過(guò)語(yǔ)音搜索的使用量大幅提升,使用語(yǔ)音的本質(zhì)是解放雙手,而目前全球語(yǔ)音識(shí)別系統(tǒng)依然存在場(chǎng)景辨識(shí)率低等問(wèn)題。隨著場(chǎng)景聲音辨識(shí)技術(shù)的加速完善,語(yǔ)音識(shí)別技術(shù)有望迎來(lái)拐點(diǎn),未來(lái)發(fā)展空間將進(jìn)一步擴(kuò)大。