噓,你不要講話,吵到我用TNT了
這個表情包吐槽的是9999元起的TNT工作站的工作場景,因為大部分操作需要用到觸控+語音識別功能,在背景嘈雜的辦公室,你很難讓語音清晰識別到你的聲音,在各種干擾下你的操作精度將會大打折扣。所以網上還有個段子表示,如果要用TNT工作站來設計,老板必須給每個設計師安排單獨的隔音辦公室。其實這種情況在目前普遍搭載人工語音智能的設備如手機、音箱中很難普遍,只要稍微有人聲干預就會讓你的siri識別率大跌。
不過噪音問題其實比你想象中的容易解決,對于羅永浩和錘子科技來說,或許欠缺的只是一顆小小的降噪芯片。
傳統的音頻降噪方式
目前智能手機中對于環境噪音的處理主要有兩種方式:第一種是通過多MIC實現降噪功能。這種方式需要配備降噪MIC,對于用戶的使用手勢要求很高。如果降噪MIC剛好壓住用戶的臉部,或者在耳機模式下都無法獲得降噪效果,在使用免提模式的時候也會有影響。
第二種是通過在終端設備內置場景降噪的軟件,通過算法來實現降噪。這對于終端計算能力有很高要求,一方面對于環境噪聲的樣本數量有限,另一方面,噪聲樣本越多,終端的判斷時間就會越長,最終影響用戶體驗。畢竟用戶希望對話是能夠迅速反應的。
這兩種傳統的降噪方式都具有各種缺陷,在具體的降噪效果上也是差強人意。
通過AI識別場景,智能降噪
更好的方式是采用獨立的降噪芯片來進行降噪。來自臺灣的意騰科技通過一顆搭載AI算法的降噪芯片來實現降噪功能。這種方式的好處是不再需要多個MIC來處理,只需要單MIC就能保證通話模式中實現清晰的語音。此外,這種方式也不需要對噪聲樣本進行搜索匹配。
這顆降噪芯片其中的核心是一顆專為語音降噪設計的AI處理器,通過3層深度學習網絡(DNN網絡)實現對原始聲音的處理輸出,其中每層網絡擁有1028個節點。此外,這顆AI處理器的運算能力可以達到1012 ops/W,可以針對特別壓縮的聲音信號實現計算處理。
通過這顆降噪芯片,之所以不需要對噪聲樣本進行搜索匹配。主要是因為這顆AI處理器對超過4億個語音資料樣本(包括2億外文語音樣本)進行了機器學習,可通過DNN網絡迅速自行找到每段音頻最合適的模型和參數。可實現智能識別包括餐廳/集會場所、公交地鐵火車站、風噪、音樂噪聲等各個噪聲場景。
降噪前后效果對
通過智能場景識別實現的降噪功能有多牛逼?讓我們來通過噪聲處理前后的音頻來實際對比一下:
一般來說,業界都采用SNR(信噪比)來判斷降噪功能,SNR是按照國際標準ISO 4969-2檢測的單值降噪值。設備的信噪比越高表明它產生的雜音越少。從圖表對比中可以看到,經過降噪處理后的SNR實現了大幅度的提升。
據了解,目前意騰科技的降噪音頻芯片一共四個型號,分別對應IG200、IG1201、IG1100、IG1102。目前實現的主要功能還是通話降噪和近距離喚醒。此外,目前實現的本地存儲的關鍵詞達到4組,預計到Q3會升到10組,通過是支持立體聲AEC以及beamforming功能。預計到Q4會推出帶聲紋識別功能的降噪芯片,這樣的話你就再也不用擔心下面這個段子的情況會發生了:
“我悄悄來到賣力工作的設計師小王身后,說一句全部刪除,小王的心血付之東流。”
最后介紹一下這顆芯片的供應商意騰科技。這家公司的CEO從事半導體行業30年+,之前創立的耀鵬科技曾是三星手機供應商。主要研發團隊從2013年開始就研究AI語音降噪算法,目前意騰科技也獲得了MTK的投資。值得注意的是,目前高通是采用將AI降噪算法植入到SOC的方式來實現降噪,但這對于SOC的性能和功耗要求頗高,未來是否會采用單獨的AI芯片來進行處理,還有待觀察。
最后,筆者認為未來語音交互將會成為一種重要的交互手段,TNT的構想在技術的進步之下未必不能實現。讓我們對產品創新保持一定的寬容和好奇心。