每逢年末,各類融資消息多不勝數,百萬起步,上不封頂。在這其中,一條并不起眼的數千萬人民幣的融資消息引人注意。
這幾年,在市場、技術、政策等多重影響下,曾經浮浮沉沉的AI正在各個行業普及開來。從應用層面來看,AI初創公司大多以人臉識別落地;而SpeakIn(勢必可贏科技)卻另辟蹊徑以聲紋識別為刃攻克各個行業的城池壁壘,為傳統行業賦能,并于近期獲得新一輪千萬融資。
欲用聲紋識別攻破安防圈
SpeakIn 于2015在硅谷創立,聚焦聲紋生物信息ID,商業化落地主要包含四大塊:1、安防領域;2、民生領域;3、金融領域;4、智能硬件。針對這些場景,目前已推出多套產品及解決方案。
SpeakIn COO易鵬宇坦稱道,在這其中,公司戰略優先級最高的當屬安防領域,落地方式主要有兩種:
防止電信詐騙。如今,各地公安部門都有個人信息采集系統,包括人臉、指紋、聲音等信息都有錄入。如果該案件涉及到聲音辨識,便可通過該系統輕松找到嫌疑人。
幫助尋找丟失兒童。如果懷疑某人是被拐賣兒童,在系統內輸入其聲音,只要之前有他們的視頻、聲音,通過對兩者的對比,就可判定是否是被拐賣兒童。易鵬宇解釋說,對于公安部門來說,這是一個新的手段,但會受到年齡跨度的阻礙。
而就此,今年6月,SpeakIn還與公安部門合作建立“智能聲紋系統聯合實驗室”,共同投入研發公安業務與安防領域的先進產品與系統,用聲紋識別技術為社會安定和國家安全提供服務和保障。
聲紋識別的“前世今生”
雷鋒網了解到,該技術最早誕生于上世紀四十年代的貝爾實驗室。它是通過對一種或多種語音信號的特征分析來達到對未知聲音辨別的目的,簡單來說就是辨別某一句話是否是某一個人說的技術。
它常常應用于刑偵破案、罪犯跟蹤、國防監聽、個性化應用等等,主要抽取說話人聲音的基音頻譜及包絡、基音幀的能量、基音共振峰的出現頻率及其軌跡等參數表征,然后再與模式識別等傳統匹配方法結合進行聲紋識別。
易鵬宇告訴雷鋒網,一宗案件中,同時具有指紋、人臉、聲音的案件少之又少。互聯網時代下,很多犯罪行為都是通過微信、電話等網絡設備,聲音成為最明顯的突破口。
對此,公安部門也早已意識到。雷鋒網(公眾號:雷鋒網)了解到,多年之前,我國就有設立聲紋識別中心,一些工作經驗豐富的專家用一些很傳統的軟件通過識別聲音頻譜圖,花上五個小時、甚至十個小時去聽辨一條聲音。方言口音、輕重音、韻律特征、發音習慣、語流中的吞音現象、鼻韻味的發音特征、聲音基頻等等都是在聲紋專家輔助系統之前,人力需要判斷的聲紋特征,一個案子可能一周都聽不完,辦案效率非常低下。
即便如此,這種作業模式目前還在各個公安部門中廣泛使用。
其實,從理論上來說,聲紋就像指紋一樣,是具有唯一性的生物信息特征,該技術在美國也一直被廣泛使用。據悉,美國聯邦調查局對2000例與聲紋相關的案件進行統計,利用聲紋作為證據只有0.31%的錯誤率。截至目前,已經為美國警方破獲了幾千起案件,為辦案人員提供了有效的線索和證據。
顯然,相比美國,該技術在我國的推廣、使用略為緩慢。究其原因,主要因此前國內相關公司技術上的不成熟讓聲紋識別在公安那里吃了‘閉門羹’。“聲音是人類最自然的交互方式之一,但相比于人臉識別技術,聲紋技術在超大規模識別能力上前些年一直沒有太大的突破。”易鵬宇說道。
在他看來,如今是時候全面應用了。
從技術角度來看,目前在十萬的聲紋庫中尋單一聲音,SpeakIn可以做到 Top10(相似值),命中率可達99%點幾。而據雷鋒網了解,目前全國最大的聲紋庫大概是五到六萬,從這來看,幫助警方成功破案時一件非常大概率的事情。
聲紋識別如何切入安防行業
在與公安部門多次交流中,易鵬宇發現公安的需求非常明確,主要圍繞能“破案”展開,并且是能快速、方便、智能地破案。
他介紹說,公安部門引入聲紋識別技術之后,把案件聲音錄入系統(智能聲紋鑒定專家輔助系統),隨之與庫中語音相比對,之后該聲音通過機器學習拆分成多個音素的頻譜圖,五分鐘后就可以判別聲音歸屬,并給出很好的排名結果(TOP值),提升辦案效率。
而這其中主要得益于兩大“功臣”:
聲音采集方面有多信道的麥克風,其中裝載多信道脈沖,八個麥克風可以收集來自不同信道的音源,包括微信、電話、手機等。易鵬宇透露,在一個設備上集成這些麥克風非常有必要,每個信道來的聲音會有細微的差別,通過該技術后,無論是移動3G信號,還是移動4G信號,系統都可以精確區分。
另一塊是軟件系統,名為鑒定工作站。有聲音的采集、輸入、比對、鑒定和結果的輸入,后面還有一套本地部署的私有云服務作支撐。
總體而言,最終SpeakIn為公安客戶提供的是一套完整的解決方案及服務。
聲紋識別可用性如何?
聲智科技CEO陳孝良博士此前接受雷鋒網專訪時曾表示,現在大部分研究都是有關動態聲紋實時檢測,動態檢測的方法自然要利用靜態檢測的各種原理方法,同時也需要增加其他很多算法, 比如VAD、降噪、去混響等。VAD的目的是檢測是不是人的聲音,降噪和去混響是排除環境干擾,這不僅對于聲紋檢測很中重要,對于語音識別更加重要。
VAD常用兩個方法,基于能量檢測和LTSD(Long-Term Spectral Divergence),當前用的較多是LTSD,另外特征提取方面還需要:動態時間規整 (DTW)、矢量量化 (VQ)、支持向量機 (SVM),模型方面則需要隱馬爾可夫模型 (HMM)和高斯混合模型 (GMM)。
雖然聲紋識別的唯一性很好,但實際上現有的設備和技術仍然很難做出準確分辨,特別是人的聲音還具有易變性,易受身體狀況、年齡、情緒等的影響,主要包括:
1、外界噪音;
2、多人說話;
3、身體狀況;
4、情緒影響。
就此,易鵬宇也坦承,聲紋識別技術的應用對于環境的要求的確比較苛刻,噪音干擾等問題仍是聲音領域的難點。(因為不僅對聲紋,語音語義識別也面臨著噪聲等問題)
他同時也強調說,聲紋識別在智能硬件等領域應用充當娛樂功能;用作公安、金融等領域,認證手段也并非獨立或者優先使用,它與其他生物識別方式是并存的。不同類型的生物識別各有優勢,很多時候都是配合使用,多了一道屏障,絕非當且僅當。
值得一提的是,隨著技術的不斷成熟,公安部為采購這些設備還正式頒布了《安防聲紋識別應用系統技術要求》的行業標準。換言之,聲音也是可以作為證據進行鑒定的。
小結
“不同于人臉識別的大規模數據庫,聲紋識別的難點在于目前聲紋庫的規模還有待擴充;另外,在聲音領域還有類似雞尾酒會這樣的技術難關需要攻克,想要做好這件事,必須保持耐心。”易鵬宇說道。
的確,都是深度學習基于數據驅動的模型,與人臉識別一樣,聲紋識別的訓練也需要龐大的數據積累及對數據的精確標注。
而相比人臉識別,聲紋識別難上加難。
聲紋識別訓練庫的建立,至少要保證性別比例分布為50%±5%,包含有不同年齡段、不同地域、不同口音、不同職業。同時,測試樣本應該涵蓋文本內容是否相關、采集設備、傳輸信道、環境噪音、錄音回放、聲音模仿、時間跨度、采樣時長、健康狀況和情感因素等影響聲紋識別性能的主要因素。
也就是說,聲紋識別對數據的要求其實比語音識別還要高很多,這條路會很難。但慶幸的是,我國目前也有像SpeakIn這樣的AI初創公司在堅持做拓荒者。用易鵬宇的話說,“這不正是創業者需要做的事嗎?”