近日,??低曆芯吭侯A研團隊基于深度學習技術研發的OCR(Optical Character Recognition,圖像中文字識別)技術,刷新了ICDARRobust Reading競賽數據集的全球最好成績,并在“互聯網圖像文字”、“對焦自然場景文字”和“隨拍自然場景文字”三項挑戰的文字識別(Word Recognition)任務中,大幅超越國內外強勁參賽團隊,標志著??低暤奈淖肿R別技術達到國際領先水平。
ICDAR(InternationalConference on Document Analysis and Recognition)全稱為文檔分析與識別國際會議,由國際模式識別協會(IAPR)主辦。它組織的文檔分析與識別競賽是當前OCR技術領域全球最具影響力的比賽,從2003年至今已舉辦5屆。其中2015競賽兩年來,已吸引了來自82個國家的2367支隊伍參加,其中包括Google、微軟、百度、三星、曠視等團隊,競賽中涌現的許多方法都對文字識別技術的發展起到了強大的推動作用。
圖1RobustReading競賽的三項主要任務
這些任務中待識別的文字位于復雜圖像背景中,成像存在噪聲、模糊、透視、傾斜以及排列隨意等不利因素,甚至字體格式種類繁多。??低暤腛CR技術,克服種種困難,在三項文字識別任務中均取得了世界第一,分別在Web and Email Born-Digital Images任務中以5.6%的優勢超越第二名,在FocusedScene Text和Incidental Scene Text任務中超越第二名3.4%和3.1%。
圖2 Born-Digital Images識別評測結果顯示HIK_OCR排名第一
圖3 Focused Scene Text識別評測結果顯示HIK_OCR排名第一
圖4 Incidental Scene Text識別評測結果顯示HIK_OCR排名第一
近年來文字識別技術的突破,很大程度上依賴于深度學習的發展。??低曨A研團隊設計了一個數十層的卷積神經網絡來完成圖像的信息編碼,然后使用啟發式的注意力模型,實現從特征到文字的解碼。其中,專為文本識別設計的啟發式機制,能夠對注意力模型提取的特征進行合理性評估,使注意力模型在復雜場景中,具有強大的穩定性。
圖5 ??低曃淖肿R別技術原理示意
借助先進的OCR技術,??低暤奈淖肿R別系統能夠應對更為復雜文字識別場景,如污損及模糊、背景干擾及形變、惡劣天氣等。目前,基于全新OCR技術的??低曑嚺谱R別系統已經覆蓋全球六十余個國家和地區?;谲嚺谱R別技術的卡口、電子警察、出入口控制、停車系統等應用也已經全面鋪開。
圖6 通用車牌識別的典型應用場景
除此之外,此次競賽成果還可以應用到機器視覺領域的標簽表單識別、民生領域的卡證執照識別、互聯網領域的惡意圖片識別、汽車輔助駕駛領域的路牌識別、城市管理領域的橫幅標語和街景識別等產品中,大幅提升產品性能與應用效果。
在如今人工智能的浪潮里,海康威視將充分利用自身大數據的積累及人工智能技術優勢,快速提升OCR技術性能,并不斷推動機器的智能化和自動化水平的提高,在視頻監控、智能感知和場景理解等方面為客戶持續創造價值。