10月,科大訊飛的語(yǔ)音識(shí)別技術(shù)在老羅的“錘子手機(jī)”發(fā)布會(huì)上火了;云棲大會(huì)杭州主會(huì)場(chǎng)與其他一些分會(huì)場(chǎng)上,阿里云的“小 AI”機(jī)器人即時(shí)文字傳譯功能暗示;第三屆世界互聯(lián)網(wǎng)大會(huì)上,搜狗推出了實(shí)時(shí)機(jī)器翻譯產(chǎn)品;11月底,百度語(yǔ)音開(kāi)放平臺(tái)和科大訊飛在各自的發(fā)布會(huì)上再次討論語(yǔ)音識(shí)別技術(shù)——語(yǔ)音識(shí)別技術(shù)引發(fā)了科技圈的混戰(zhàn)。此時(shí)此刻,各種同聲翻譯和速記哭暈在廁所。
特別是隨著人工智能時(shí)代的到來(lái),語(yǔ)音識(shí)別技術(shù)已經(jīng)超越了正常的人類(lèi)識(shí)別能力,作為人機(jī)交互方式的入口,是人工智能重要的一環(huán)。目前,人們不斷地探索和研發(fā)人工智能產(chǎn)品和技術(shù),不論是安防界還是科技界,人工智能推動(dòng)了每個(gè)行業(yè)的發(fā)展,滲透進(jìn)人們的日常生活,語(yǔ)音識(shí)別技術(shù)也得到了飛速的發(fā)展。同時(shí),語(yǔ)音識(shí)別技術(shù)作為音頻監(jiān)控技術(shù)努力的方向之一,人工智能時(shí)代的語(yǔ)音識(shí)別技術(shù)也給安防行業(yè)的音頻監(jiān)控產(chǎn)品和技術(shù)帶來(lái)了“新鮮的血液”。
眾所周知,音頻監(jiān)控已經(jīng)成為安防行業(yè)的重要組成部分,尤其是近幾年平安城市建設(shè)的推進(jìn)和反恐進(jìn)程的加快,音頻監(jiān)控在城市安防系統(tǒng)中應(yīng)用的越來(lái)越多,以彌補(bǔ)視頻監(jiān)控的不足。特別是在公檢法機(jī)構(gòu)、機(jī)場(chǎng)、鐵路、銀行等一些領(lǐng)域,越來(lái)越多的安防工程急需清晰、逼真的影音同步監(jiān)控系統(tǒng),音頻監(jiān)控領(lǐng)域已經(jīng)成為安防行業(yè)的新亮點(diǎn),連習(xí)大大都在全國(guó)政法委會(huì)上明確提到“智慧城市不能只有圖像,而沒(méi)有聲音”。因此,“視頻監(jiān)控+音頻監(jiān)控”成為行業(yè)的新潮流,而在人工智能時(shí)代迅速發(fā)展的語(yǔ)音識(shí)別技術(shù)會(huì)給音頻監(jiān)控帶來(lái)哪些改變呢?
語(yǔ)音識(shí)別是成本最低的生物識(shí)別技術(shù)
語(yǔ)音識(shí)別,是一種結(jié)合了生理和行為兩種成分的生物認(rèn)證技術(shù)。氣管、鼻腔、咽喉、舌頭等組織的相互配合,影響了聲音的音調(diào)、音強(qiáng)和音色,從而形成了每個(gè)人聲音的獨(dú)特性,這構(gòu)成語(yǔ)音的生理基礎(chǔ);而每個(gè)人不同的說(shuō)話(huà)內(nèi)容,則構(gòu)成了語(yǔ)音的行為基礎(chǔ)。因此,語(yǔ)音識(shí)別是一種很有趣的過(guò)程,既要知道你在說(shuō)什么內(nèi)容(行為特征),又要知道你在以什么樣的方式說(shuō)(生理特征)。
語(yǔ)音識(shí)別,是成本最低的生物識(shí)別技術(shù)。因?yàn)椴恍枰蕾?lài)昂貴的成像芯片和光學(xué)鏡頭,也沒(méi)有臺(tái)式PC和移動(dòng)終端的限制,只需要一枚麥克風(fēng)即可采集語(yǔ)音,因此在各種身份認(rèn)證產(chǎn)品中都可以集成該功能。用戶(hù)對(duì)著麥克風(fēng)說(shuō)出特定的短語(yǔ),系統(tǒng)將用戶(hù)的語(yǔ)音樣本過(guò)濾后,與先前存儲(chǔ)的語(yǔ)音樣本比較,達(dá)到一定的近似度閾值,用戶(hù)就通過(guò)了身份認(rèn)證。
語(yǔ)音識(shí)別讓音頻監(jiān)控成為“聽(tīng)得懂”的耳朵
語(yǔ)音識(shí)別,是一種結(jié)合了生理和行為兩種成分的生物認(rèn)證技術(shù)。語(yǔ)音識(shí)別技術(shù)分為“語(yǔ)義識(shí)別”和“語(yǔ)音身份識(shí)別”兩大類(lèi)應(yīng)用模式。語(yǔ)義識(shí)別,也被稱(chēng)作話(huà)語(yǔ)識(shí)別、非特定人語(yǔ)音識(shí)別,其目的在于理解話(huà)語(yǔ)中的單詞和句子——也就是話(huà)語(yǔ)中的內(nèi)容。由于幾乎可以被任何人使用,語(yǔ)義識(shí)別技術(shù)的應(yīng)用場(chǎng)景非常多樣化,被集成到各種設(shè)備上,已經(jīng)成為智能硬件發(fā)展的主流趨勢(shì)。
公開(kāi)資料顯示,在技術(shù)指標(biāo)方面,百度語(yǔ)音識(shí)別、搜狗輸入法語(yǔ)音識(shí)別、訊飛輸入法語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到97%,騰訊云智能語(yǔ)音識(shí)別技術(shù)在通用領(lǐng)域中準(zhǔn)確率達(dá)95%。目前音頻監(jiān)控領(lǐng)域主要通過(guò)聲源聲音的強(qiáng)度信號(hào)進(jìn)行智能分析,準(zhǔn)確率有待提高。和視頻監(jiān)控一樣,音頻監(jiān)控同樣面臨數(shù)字化智能化的變革,海量的音頻數(shù)據(jù),只有通過(guò)智能分析和判別才能更有意義,而不是停留在存儲(chǔ)和監(jiān)聽(tīng)的基本功能上。
因此將語(yǔ)音識(shí)別技術(shù)應(yīng)用到音頻監(jiān)控中,讓音頻監(jiān)控設(shè)備“聽(tīng)懂”周?chē)h(huán)境,才能對(duì)危險(xiǎn)事件和意外事件進(jìn)行安全防范。
獲得前端高清音質(zhì)是關(guān)鍵
目前語(yǔ)音識(shí)別技術(shù)的高準(zhǔn)確率是在比較安靜的環(huán)境下達(dá)到的目標(biāo),在噪音干擾的情況下如何提升識(shí)別率,不僅是眾多互聯(lián)網(wǎng)企業(yè)需要努力的,音頻監(jiān)控企業(yè)也在研究如何去噪將前端設(shè)備收集到的音質(zhì)高清化。現(xiàn)階段音頻監(jiān)控行業(yè)獲取前端高清音質(zhì)已經(jīng)到達(dá)瓶頸期,如何獲取在不同環(huán)境下的高清音質(zhì)成為企業(yè)亟待解決的問(wèn)題,部分企業(yè)采取前端采集原始音源數(shù)據(jù)的同時(shí)進(jìn)行高清數(shù)字化轉(zhuǎn)換等方式來(lái)獲得使用價(jià)值更高的音頻數(shù)據(jù),從而在前端獲得更高清的真實(shí)數(shù)據(jù)。
語(yǔ)音識(shí)別技術(shù)在去噪技術(shù)方面的研究也會(huì)推動(dòng)音頻監(jiān)控去噪技術(shù)的發(fā)展。
結(jié)束語(yǔ)
音頻監(jiān)控作為安防行業(yè)近年來(lái)迅速發(fā)展的一個(gè)分支,目前已展現(xiàn)出前所未有的勃勃生機(jī),人們把關(guān)注的目光開(kāi)始從能夠看見(jiàn)和聽(tīng)見(jiàn)的需求轉(zhuǎn)向?qū)で蟾哔|(zhì)量的音視頻監(jiān)控。所以,機(jī)遇的同時(shí)也面臨著巨大的挑戰(zhàn)——音頻大數(shù)據(jù)時(shí)代的到來(lái),安防企業(yè)面臨著很多問(wèn)題,比如:如何將收集的聲音成為有用的信息,如何處理海量的音頻數(shù)據(jù),如何將“監(jiān)控”轉(zhuǎn)化為“防范”……語(yǔ)音識(shí)別+音頻監(jiān)控,可以幫助安防企業(yè)不斷優(yōu)化音頻監(jiān)控產(chǎn)品、平臺(tái)和解決方案,提高實(shí)際應(yīng)用率。
語(yǔ)音識(shí)別技術(shù)在人工智能時(shí)代迅速發(fā)展,音頻監(jiān)控技術(shù)擁抱語(yǔ)音識(shí)別,必將更智能!