11月15日,科技部召開了新一代人工智能發(fā)展規(guī)劃暨重大科技項(xiàng)目啟動(dòng)會(huì),公布了首批國家新一代人工智能開放創(chuàng)新平臺(tái)名單,并宣布分別依托百度、阿里云、騰訊、科大訊飛這四家公司,在自動(dòng)駕駛、城市大腦、醫(yī)療影像、智能語音等四領(lǐng)域建設(shè)國家新一代人工智能開放創(chuàng)新平臺(tái),其中科大訊飛作為BAT外的第四極以“智能語音”項(xiàng)目入選,讓這家公司格外引人注目,而語音識(shí)別和無人駕駛、城市大腦等項(xiàng)目并列,也看得出其在應(yīng)用層面的重要性。
有研究機(jī)構(gòu)指出,2015年全球語音識(shí)別市場(chǎng)規(guī)模約為61.9億美元,預(yù)計(jì)到2020年可以接近200億美元(約等于1200億人民幣)。但也有業(yè)內(nèi)人士認(rèn)為,語音識(shí)別市場(chǎng)已告別過熱,進(jìn)入理性期。
22種方言一樣能識(shí)別
2017年11月7日,在上海舉行的中國國際工業(yè)博覽會(huì)(簡稱工博會(huì))上,科大訊飛在工博會(huì)首次設(shè)立的人工智能專區(qū)中展示了曉譯翻譯機(jī)以及訊飛聽見系統(tǒng)。
展臺(tái)上,一臺(tái)裝有訊飛聽見智能會(huì)議系統(tǒng)的筆記本正在不斷記錄著講解員的話,從現(xiàn)場(chǎng)演示效果看,不僅可同步記錄,準(zhǔn)確率較高,簡單的英文也能翻譯出來。據(jù)講解員表示,這套系統(tǒng)的語音識(shí)別準(zhǔn)確率在95%以上??拼笥嶏w相關(guān)人士告訴《IT時(shí)報(bào)》記者,以訊飛輸入法為例,其通用語音識(shí)別準(zhǔn)確率達(dá)到98%,并能夠識(shí)別22種方言。針對(duì)少部分口音不標(biāo)準(zhǔn)的用戶或者講方言的用戶,還可以進(jìn)行個(gè)性化識(shí)別。
北京捷通華聲科技公司也是一家從事智能語音、智能圖像、語義理解等人工智能技術(shù)的公司,在總經(jīng)理武衛(wèi)東看來,語音識(shí)別在通用領(lǐng)域平均準(zhǔn)確率達(dá)到95%以上,在一些特定行業(yè)應(yīng)用領(lǐng)域,準(zhǔn)確率可以高達(dá)97%。“大多數(shù)做語音識(shí)別的公司,基礎(chǔ)都是建立在深度神經(jīng)網(wǎng)絡(luò)上的,運(yùn)用機(jī)器學(xué)習(xí)、建立基礎(chǔ)模型,沒有很大差異。彼此之間的區(qū)別在于解碼器技術(shù)、大數(shù)據(jù)基礎(chǔ)、并行網(wǎng)絡(luò)等,這些差異會(huì)構(gòu)成行業(yè)內(nèi)的差異化競(jìng)爭。” 武衛(wèi)東表示。
在這些差異化因素中,最重要的是大數(shù)據(jù)基礎(chǔ),用武衛(wèi)東的話說就是,“深度神經(jīng)網(wǎng)絡(luò)的方法,是通過大量的語音數(shù)據(jù),訓(xùn)練出高精度的聲學(xué)模型和語言模型,從而提升識(shí)別率。數(shù)據(jù)量決定了語音識(shí)別的準(zhǔn)確率,也能提升領(lǐng)域覆蓋度。”一般來說,數(shù)據(jù)來源主要是在云端App產(chǎn)生的數(shù)據(jù)以及行業(yè)應(yīng)用中真實(shí)場(chǎng)景的數(shù)據(jù)。
訓(xùn)練計(jì)算機(jī)學(xué)會(huì)自我分辨
讓語音秒變文字,在極短的時(shí)間內(nèi),機(jī)器內(nèi)的語音識(shí)別系統(tǒng)已經(jīng)經(jīng)歷了一個(gè)極為復(fù)雜的分析過程。
“當(dāng)你對(duì)著手機(jī)說話時(shí),目標(biāo)語音首先被數(shù)字化并送入系統(tǒng)的前端模塊,前端模塊主要包含語音信號(hào)處理和語音特征處理兩部分。信號(hào)處理部分是為了改善識(shí)別效果受環(huán)境噪聲、信道畸變等因素的影響,而特征處理則是將輸入的語音進(jìn)行某種符合語音識(shí)別需求的‘轉(zhuǎn)換’,即讓手機(jī)聽懂‘人話’。”科大訊飛相關(guān)人士解釋,在確定了上述的語音特征處理等規(guī)則之后,接下來就是進(jìn)行模型訓(xùn)練,又分為聲學(xué)模型訓(xùn)練和語言模型訓(xùn)練,教會(huì)機(jī)器學(xué)會(huì)“哪個(gè)字詞發(fā)什么音、該怎么連在一起讀”以及“什么樣的命令或文字組合是合理的。” 此外,解碼引擎的運(yùn)算效率至關(guān)重要,直接影響用戶體驗(yàn)。目前,科大訊飛的解碼引擎可以在用戶說完話40毫秒之內(nèi)給出結(jié)果。
目前在語音識(shí)別方面,大多數(shù)公司正在做的是無監(jiān)督/半監(jiān)督訓(xùn)練。“通俗點(diǎn)講,就是讓機(jī)器在沒有人工干預(yù)的情況下,進(jìn)行模型訓(xùn)練。比如在用戶使用機(jī)器時(shí),機(jī)器會(huì)結(jié)合用戶個(gè)性化的發(fā)音特點(diǎn),優(yōu)化模型,提升識(shí)別率。”武衛(wèi)東向《IT時(shí)報(bào)》記者解釋說。
在業(yè)內(nèi)人士看來,每提升一個(gè)百分比的準(zhǔn)確率,都是質(zhì)的飛躍。這不僅要相當(dāng)完善的數(shù)據(jù)庫,滿足這樣的準(zhǔn)確率還得有效率較高的識(shí)別提取算法和自學(xué)習(xí)系統(tǒng)。
可落地商業(yè)生態(tài)還不多
如今,語音識(shí)別在應(yīng)用落地方面也在發(fā)力,比如,在消費(fèi)娛樂領(lǐng)域,VR游戲引入語音識(shí)別技術(shù)后,玩家可拋棄游戲手柄,真正做到沉浸式體驗(yàn)。在對(duì)AI需求旺盛的智能家居領(lǐng)域,更是如此,越來越多的家居加入了對(duì)話功能,達(dá)到提升生活智能化的目的,甚至在解鎖、支付等方面,能確認(rèn)說話人身份的聲紋識(shí)別也在流行。
金融、醫(yī)療、客服等B端領(lǐng)域,智能手機(jī)、PC、移動(dòng)應(yīng)用等C端領(lǐng)域,公共服務(wù)、智慧城市項(xiàng)目等G端領(lǐng)域都是語音識(shí)別的聚焦行業(yè)。在易觀國際分析師王京京看來,目前語音識(shí)別技術(shù)的落地也存在一定困難,“比如,B端市場(chǎng)的應(yīng)用核心在于降本增效或者解決痛點(diǎn),如果語音識(shí)別/語音交互不能明顯地為企業(yè)降低成本、提升效率或者解決某些痛點(diǎn),企業(yè)就缺乏應(yīng)用的動(dòng)力;C端市場(chǎng)的落地在于交互體驗(yàn)、使用習(xí)慣和商業(yè)生態(tài),現(xiàn)在的語音識(shí)別效果和效率還不能達(dá)到十分完美,在一定程度上影響了用戶體驗(yàn)。而且大多數(shù)場(chǎng)景下,用戶原本的交互習(xí)慣已經(jīng)形成,除非像車載這樣對(duì)語音交互有剛需的環(huán)境才能達(dá)到比較高的滲透率。”
BAT和初創(chuàng)公司都有機(jī)會(huì)
從技術(shù)層面上說,目前,市場(chǎng)上已有的語音識(shí)別公司的差異并不大,王京京告訴《IT時(shí)報(bào)》記者。要形成差異化競(jìng)爭,需要在某些細(xì)分應(yīng)用領(lǐng)域中深扎下去,通過提供完整的行業(yè)解決方案來增加獲客、完善生態(tài),從而形成行業(yè)壁壘。
AI熱潮之下,只要是屬于AI領(lǐng)域的細(xì)分市場(chǎng)都受到創(chuàng)業(yè)企業(yè)的追捧,BAT也不會(huì)錯(cuò)過。以語音助理為例,最大的布局者是阿里巴巴,其次是百度的度秘,最后是今年5月騰訊發(fā)布的叮當(dāng)。百度近幾年在人工智能方面投入巨大,試圖尋找下一個(gè)機(jī)會(huì)點(diǎn),其語音技術(shù)也已集成語音識(shí)別、語義理解、深度問答、多輪對(duì)話、情感分析、語音合成等能力,語音交互能力在搜索、地圖等產(chǎn)品中均有體現(xiàn)。
BAT等互聯(lián)網(wǎng)巨頭的入局是否會(huì)對(duì)其他企業(yè)造成影響?在不少業(yè)內(nèi)人士看來,目前還不明顯。“人工智能產(chǎn)業(yè)不是一家公司就可以包打天下,必須要建立產(chǎn)業(yè)生態(tài),不會(huì)形成寡頭。”武衛(wèi)東這樣認(rèn)為。
在王京京看來,雖然BAT也在語音識(shí)別方面發(fā)力,但語音識(shí)別創(chuàng)業(yè)公司更有條件深耕細(xì)分應(yīng)用領(lǐng)域,提供一體化解決方案,BAT的重心更多是在偏通用型的語音技術(shù)以及服務(wù)自身業(yè)務(wù)布局上。
有市場(chǎng),就會(huì)引來投資者,語音識(shí)別領(lǐng)域也不例外。事實(shí)上,語音識(shí)別領(lǐng)域的投資很早就開始了,近幾年的投資熱度并不亞于計(jì)算機(jī)視覺/人臉識(shí)別。從整體來看,語音基礎(chǔ)設(shè)施層的投資布局已經(jīng)基本建立,接下來資本會(huì)更多關(guān)注細(xì)分和差異化的語音應(yīng)用領(lǐng)域。“目前,資本方對(duì)技術(shù)并不看重,主要看重變現(xiàn)能力和商業(yè)模式。”武衛(wèi)東表示。
相關(guān)鏈接
生物識(shí)別做唯一密碼要當(dāng)心
當(dāng)生物識(shí)別成為密碼,就意味著面臨被竊取甚至是被攻破的可能性。聲紋識(shí)別和語音識(shí)別最大的差異就是,語音識(shí)別的目標(biāo)是電腦自動(dòng)將人類語音內(nèi)容轉(zhuǎn)換為相應(yīng)文字,但并不能確認(rèn)說話人的身份,聲紋識(shí)別的目標(biāo)則是確認(rèn)說話人的身份。
把聲紋識(shí)別用在支付、安全等特定領(lǐng)域,對(duì)于聲紋識(shí)別準(zhǔn)確率的要求很高,誤解率要控制在萬分之一甚至百萬分之一。但是武衛(wèi)東也坦言,單一的生物識(shí)別驗(yàn)證肯定有被攻破的可能,因此,捷通華聲在進(jìn)行生物特征驗(yàn)證時(shí),采用多項(xiàng)生物特征交叉驗(yàn)證的方式,形成融合。“比如聲紋+人臉+證件,在用戶體驗(yàn)上,要做的就是這幾個(gè)步驟融為一體,比如在進(jìn)行聲紋驗(yàn)證的同時(shí),攝像頭自動(dòng)打開,進(jìn)行人臉識(shí)別,盡量縮短驗(yàn)證過程,最大化進(jìn)行安全和便捷的平衡。”
但在信息安全身份認(rèn)證資深專家、眾人科技創(chuàng)始人談劍峰看來,生物特征的唯一性恰恰是其最不安全的根源,“現(xiàn)在大家考慮的都是終端安全,認(rèn)為在終端上用自己唯一的聲紋、人臉進(jìn)行驗(yàn)證很安全,但沒考慮到這些生物特征被采集之后會(huì)存儲(chǔ)在服務(wù)器上,一旦服務(wù)器被攻擊,風(fēng)險(xiǎn)極大。密碼學(xué)中有一個(gè)原理就是可更換,但生物特征具有不可再生性,只能用在抓取罪犯等特殊場(chǎng)景中。”