在各類(lèi)科幻大片所描述的未來(lái)生活中,使用語(yǔ)音操控的炫酷場(chǎng)景無(wú)處不在。比如在《鋼鐵俠》系列電影中,男主角回到家以后,說(shuō)聲想喝咖啡,咖啡機(jī)便開(kāi)始沖咖啡;說(shuō)想查資料,電腦便接受指令開(kāi)始工作……
這樣的未來(lái)并非憑空想象。從蘋(píng)果、谷歌、科大訊飛等國(guó)內(nèi)外科技企業(yè)對(duì)語(yǔ)音產(chǎn)業(yè)的重視和投入可以看出,業(yè)內(nèi)普遍認(rèn)為語(yǔ)音作為人類(lèi)信息最自然、最便捷的交互方式,必將成為未來(lái)智能家居設(shè)備中的重要組成部分。
而隨著語(yǔ)音核心技術(shù)和外部環(huán)境的逐步成熟,技術(shù)瓶頸亦在慢慢被突破。以下幾項(xiàng)關(guān)鍵技術(shù)也許會(huì)是開(kāi)啟智能家居時(shí)代的“鑰匙”。
【遠(yuǎn)場(chǎng)識(shí)別技術(shù)打破室內(nèi)識(shí)別瓶頸】
能隨意用語(yǔ)音控制智能家居的一個(gè)必要條件就是在無(wú)論你在客廳哪個(gè)角落發(fā)出指令,設(shè)備都能準(zhǔn)確的識(shí)別。
目前室內(nèi)的語(yǔ)音交互受到背景噪音、其他人聲干擾、回聲、混響等多重復(fù)雜因素影響,導(dǎo)致識(shí)別率低甚至無(wú)法使用,只能在相對(duì)安靜、近距離的環(huán)境下使用。而遠(yuǎn)場(chǎng)識(shí)別技術(shù)將能夠很好的解決這些問(wèn)題。
2015年3月,科大訊飛遠(yuǎn)場(chǎng)識(shí)別技術(shù)對(duì)外亮相發(fā)布,超過(guò)5米的語(yǔ)音識(shí)別技術(shù)突破了語(yǔ)音交互距離瓶頸,大幅度改進(jìn)了語(yǔ)音交互的自由度。
該技術(shù)利用麥克風(fēng)陣列的空域?yàn)V波特性——在目標(biāo)說(shuō)話人方向形成拾音波束(BeamForming),抑制波束之外的噪聲,結(jié)合獨(dú)特的去混響算法,最大程度的吸收反射聲,從而達(dá)到去除混響的目的。
可以想象,有了遠(yuǎn)場(chǎng)識(shí)別的遠(yuǎn)距離、高識(shí)別率支撐,以后用戶(hù)在客廳的任意角落,都可以通過(guò)語(yǔ)音輕松操控家里的一切智能硬件設(shè)備。
【語(yǔ)音識(shí)別技術(shù)實(shí)現(xiàn)真正的Hands Free】
在解決了遠(yuǎn)距離語(yǔ)音交互的混響和噪音問(wèn)題后,便是“語(yǔ)音識(shí)別”這項(xiàng)關(guān)鍵性技術(shù)大施拳腳的時(shí)候了。
“語(yǔ)音識(shí)別”技術(shù)相當(dāng)于給計(jì)算機(jī)系統(tǒng)安裝上“耳朵”,使其具備“能聽(tīng)”的功能。該技術(shù)經(jīng)過(guò)語(yǔ)音信號(hào)處理、語(yǔ)音特征處理、模型訓(xùn)練及解碼引擎等復(fù)雜步驟,使機(jī)器最終能夠?qū)⒄Z(yǔ)音中的內(nèi)容、說(shuō)話人、語(yǔ)種等信息識(shí)別出來(lái)。
(圖:主流的語(yǔ)音識(shí)別系統(tǒng)框架圖)
科大訊飛通過(guò)把國(guó)際領(lǐng)先的深度神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別,通過(guò)海量訓(xùn)練語(yǔ)料基礎(chǔ)上的高精度聲學(xué)模型和語(yǔ)言模型訓(xùn)練,并結(jié)合極致的解碼引擎工程技術(shù),給識(shí)別效果和識(shí)別速度帶來(lái)了跨越式的提升。大詞匯連續(xù)語(yǔ)音識(shí)別率達(dá)到95%以上,命令詞識(shí)別率達(dá)到99%以上,解碼引擎可以在用戶(hù)說(shuō)完話40毫秒之內(nèi)給出結(jié)果,真正實(shí)現(xiàn)“秒懂”。
相信在這樣精準(zhǔn)快速的語(yǔ)音識(shí)別技術(shù)保駕護(hù)航之下,解放雙手,自由隨意對(duì)智能家居“發(fā)號(hào)施令”的日子必定近在眼前。
此外,由于功耗等方面的限制,智能設(shè)備很難24小時(shí)都保持在激活狀態(tài)。因此,要想在家里自由地控制智能家居設(shè)備,我們還需要能即時(shí)“喚醒”功能,也就是給智能設(shè)備加入“語(yǔ)音喚醒”技術(shù)。
語(yǔ)音喚醒,是指通過(guò)含有特定喚醒詞的語(yǔ)音輸入來(lái)“觸發(fā)”語(yǔ)音識(shí)別系統(tǒng)以實(shí)現(xiàn)后續(xù)的語(yǔ)音交互。通過(guò)該技術(shù),任何人在任何環(huán)境、任何時(shí)間,無(wú)論是近場(chǎng)(0.5米以?xún)?nèi))還是遠(yuǎn)場(chǎng)(2~5米),面向設(shè)備直接說(shuō)出預(yù)設(shè)的喚醒詞,就能激活產(chǎn)品的識(shí)別引擎,從而真正實(shí)現(xiàn)全程無(wú)觸控的語(yǔ)音交互。
除了說(shuō)單個(gè)喚醒詞實(shí)現(xiàn)喚醒外,更自然便捷、在技術(shù)上更具有挑戰(zhàn)性的交互方式是在連續(xù)語(yǔ)流中帶上喚醒詞,以實(shí)現(xiàn)喚醒產(chǎn)品并同時(shí)實(shí)現(xiàn)操控的效果。目前,科大訊飛的語(yǔ)音喚醒方案已在產(chǎn)品中取得成功應(yīng)用,比如在靈犀語(yǔ)音助手中,說(shuō)出“打電話給張三”就可以喚醒設(shè)備并自動(dòng)完成人名識(shí)別與撥打電話。
【個(gè)性化識(shí)別讓設(shè)備更懂你】
每個(gè)人在說(shuō)話時(shí),口音、語(yǔ)速、口頭禪都不一樣,那么家里的智能設(shè)備只會(huì)識(shí)別一些基本詞句顯然是遠(yuǎn)遠(yuǎn)不夠的,它們必須要更懂你。比如,懂你的口音、方言、口頭禪以及時(shí)不時(shí)蹦出的專(zhuān)業(yè)詞匯等。
讓智能設(shè)備適應(yīng)每個(gè)人的使用習(xí)慣可能嗎?答案是肯定的。這里要用的到就是“個(gè)性化識(shí)別技術(shù)”。
個(gè)性化識(shí)別指的是語(yǔ)音識(shí)別系統(tǒng)具備自動(dòng)學(xué)習(xí)并適應(yīng)用戶(hù)使用習(xí)慣的能力,你用的越多,它越懂你。一般來(lái)說(shuō),個(gè)性化識(shí)別包括發(fā)音和語(yǔ)言?xún)煞矫妗F渲邪l(fā)音個(gè)性化主要是指系統(tǒng)對(duì)用戶(hù)語(yǔ)速、口音等發(fā)音習(xí)慣的學(xué)習(xí),而語(yǔ)言個(gè)性化主要是指系統(tǒng)可以對(duì)用戶(hù)的特定詞匯(例如人名、地名、口頭禪、專(zhuān)業(yè)詞匯等)具備更好的辨識(shí)性。
(圖:語(yǔ)言個(gè)性化方案)
通過(guò)科大訊飛業(yè)界領(lǐng)先的個(gè)性化識(shí)別技術(shù),能針對(duì)每個(gè)人的興趣點(diǎn)、知識(shí)背景等來(lái)進(jìn)行個(gè)性化語(yǔ)言模型建模,從而準(zhǔn)確識(shí)別出個(gè)性化的詞匯內(nèi)容。用的越多,語(yǔ)音識(shí)別系統(tǒng)就越懂你。
“方言”現(xiàn)在也不再是語(yǔ)音識(shí)別的障礙,目前,科大訊飛已經(jīng)先后對(duì)外發(fā)布四川話、河南話、東北話、天津話等14種方言識(shí)別技術(shù)。以后,無(wú)論你使用普通話還是方言,無(wú)論你說(shuō)話語(yǔ)速快還是慢,普通話標(biāo)不標(biāo)zun,在家里都能自由地使用語(yǔ)音控制智能設(shè)備。
隨著遠(yuǎn)場(chǎng)識(shí)別、語(yǔ)音識(shí)別、個(gè)性化識(shí)別等技術(shù)一一突破使用瓶頸,隨心所欲“聲”控智能家居的時(shí)代一觸即發(fā),那么這一變革多久會(huì)來(lái)?也許在明年,也許就在明天。