10月,在東半球最好的相聲晚會——“錘子手機”發布會上,科大訊飛的語音識別技術意外火了。羅永浩花了二十分鐘來講錘子手機采用的這項技術。
而在安防領域,音頻系統早已是安全防范系統的重要組成部分。雖然超過70%的網絡攝像機擁有單向或多向的音頻功能,但真正實際應用音頻功能的監控攝像機卻很少。對未來音頻監控市場的分析認為,會保持穩步增長的趨勢,增幅會在10%左右。IHS預測未來音頻功能將在視頻監控系統中得到更多的重視。
在很多事件中,我們調取錄像資料,發現只有畫面沒有聲音,一切只靠當事人的口供,無疑給公安機關偵破案件帶來障礙,公眾的質疑很難避免。加裝音頻監控無疑將會解決質疑的問題并且增加證據的說服力。
因此,現在很多的智慧安防系統,已經要求增加音頻采集,例如在平安城市、公檢法辦案區、金融機構、公共交通、教育監考、行政服務、執法取證等領域,越來越多的優質項目需要高清晰、高保真的音視頻同步監控系統,在優質安防工程中已凸顯出音頻監控的重要性。
如何從“聽得見”到“聽得懂”?
聲紋識別
音頻監控經過多年的發展,已經可以做到通過聲音的識別來判斷說話人的情緒、所處的環境等問題。而在音頻監控環節中,聲紋識別提供了重要的技術支撐。
聲紋識別屬于生物識別技術的一種,是一項根據語音波形中反映說話人生理和行為特征的語音參數,自動識別說話人身份的技術。這里需要強調的是,和語音識別不同,聲紋識別利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調說話人的個性,而語音識別的目的是識別出語音信號中的言語內容,并不考慮說話人是誰,它強調共性。
同時,與其他生物識別相比,聲紋識別的應用有一些特殊的優勢:
(1)蘊含聲紋特征的語音獲取方便、自然,聲紋提取可在不知不覺中完成,因此使用者的接受程度也高;
(2)獲取語音的識別成本低廉,使用簡單,一個麥克風即可,在使用通訊設備時更無需額外的錄音設備;
(3)適合遠程身份確認,只需要一個麥克風或電話、手機就可以通過網路(通訊網絡或互聯網絡)實現遠程登錄;
(4)聲紋辨認和確認的算法復雜度低;
(5)配合一些其他措施,如通過語音識別進行內容鑒別等,可以提高準確率;
這些優勢使得聲紋識別的應用越來越受到系統開發者和用戶青睞,聲紋識別的世界市場占有率15.8%,僅次于指紋和掌紋的生物特征識別,并有不斷上升的趨勢。
聲音定位
人們經常借助聽覺來判斷發音物體的位置。例如,當你獨自行走時,突然聽到一個響聲,你會立刻判斷出這個聲音是什么聲音、對你有無威脅、它來自何方等等。確定聲音的方向和距離需要比較來自兩耳信息,雖然你會很快做判斷和反應,但聲音定位過程是聽覺系統復雜綜合的功能。
而聲音定位則是通過強度差、時間差、因色差、相位差等來實現。
音頻場景分析
作為人們感知外界環境的一個重要通道,聽覺在視線障礙、不利光照條件等情況中可起到視覺無法替代的作用,是視覺的重要補充。相比于圖像數據,音頻信號往往可使用相對簡單的設備進行采集并且占用更少的存儲空間和處理時間。隨著當前移動平臺計算能力的不斷提高,出現了越來越多基于音頻的各類應用,所涉及的音頻處理算法一直是相關研究領域的重點。
其中,提取、分析和有效利用音頻數據所攜帶的語義信息,對基于內容的多媒體檢索、摘要以及開發上下文自適應的應用等具有重要意義。
音頻場景分析主要是為了分析、決策、預警所監聽環境下發生的異常行為。其核心技術是基于各類異常聲音在時域、頻域的特征,結合模式識別的分類方法對異常事件報警。
語音識別
與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。
語音識別技術經過幾十年的發展,基于深度學習的人工智能語音將得到大范圍的應用。
音頻監控在安防領域大有可為
由于傳統視頻監控系統,受攝像機鏡頭和安裝角度限制,監控區域很難做到無死角覆蓋,即使通過多角度安裝攝像機,也無法保證全覆蓋,由于攝像機圖像采集受諸多環境因素(例如:現場照明、強光源干擾等)影響而無法有效采集現場圖像。而音頻監控技術由于音頻本身的技術特性,基本上不存監控死角,能更有效的掌控現場的實時情況。所以音頻監控技術越來可以更好的彌補視頻監控技術的不足。
同時,聲音具有一系列獨有的特征,如不受白天和黑夜的影響,不容易遮擋,具有方向性等等。在球機上安置拾音器,對聲音的方向進行定位,當檢測到異常聲音時控制球機到相應位置,這樣一來,在一定程度上就可以第一時間看到異常聲音所處位置的實時視頻,為判定事態提供了多種信息。(本文部分技術支持來源于快魚電子)
人工智能時代,語音技術以及和語音技術相關的應用、圖像技術以及相關應用在今天變得格外重要。而圍繞著語音、圖像以及其他傳感器所產生的數據,以及這些數據的生產、分析、組織和消費,在之后的很長的時間里,注定會成為智能領域中最重要的發展方向。我們期待智能音頻帶給安防的巨大變化。