當警方通過人臉識別在明星演唱會現場抓捕逃犯時,當人們走進餐廳只用“靠臉吃飯”時,當凌晨 2:30 還有智能客服解答售后問題時,你是否會有這樣的疑問:人臉識別在應用的安全性上如何保證?智慧零售如何獲取感知分析能力?AI 算法如何與硬件結合?終端硬件的計算能力不足問題該如何解決?伴隨著數據量的迅猛增長,帶寬和存儲倍增的壓力又該如何釋放?
3月23日,騰訊優圖實驗室首場AI技術沙龍在北京車庫咖啡廳成功舉辦。沙龍主題名為智變未來-淺談人工智能技術應用與實踐,來自騰訊優圖、騰訊云、騰訊 AI LAB、英特爾的五位技術講師,圍繞著智慧零售、智能硬件、人臉核身、語音識別等產品技術,基于實際業務場景的落地與用戶痛點開始了這場布道。
計算機視覺技術在場景的應用
騰訊優圖產品負責人 周可菁
智慧零售是以消費體驗過程為核心,以數據驅動的泛零售業態。其主要包括場景數據化和數據網絡化兩個結構。以電商為例,當消費者入店時,其形成的客戶畫像,以及整個流動軌跡,與商品的交互行為,購買,復購,到最終的離店。全閉程的環節都可以以數據的形式呈現出來,這也是零售中所談到的非常重要的概念叫做人 - 貨 - 場的關系。
而原本需要依靠門店運營者人眼觀察進行的分析,現在可通過計算機視覺技術的應用實現數據從非結構化到結構化的轉變,并實時準確的幫助門店運營者分析統計數據,為門店實現降本增效。計算機視覺技術也成為了建立人 - 貨 - 場三者聯系的天然紐帶,并幫助商家提升全鏈路運營效率,優化客戶體驗,創造新的商業機會。
那么 CV 技術是如何在線下指導實踐與應用?騰訊優圖嘗試將 CV 技術運用到線下門店運營的問題解決上,基于圖像識別技術,人臉識別技術等計算機視覺技術,幫助商家將線下的場景做到數字化的分析。此解決方案分為到店—逛店—購買三大模塊,通過對各個環節的分解和洞察,為零售商打造知人知面更知心的智慧門店。
首先在影響營銷銷售額的 10 大因素中過店客流、進店客流是非常重大的因素。因此在到店模塊中,客流從過店到進店的轉換分析下,CV 技術能力可幫助商家分時分段的實時統計過店客流,以及過店到進店的客流轉換,以此來指導零售商分析店鋪的高峰期和冷淡期。同時,按照性別、年齡等特征維度,也可描繪出店家過店客流的人群畫像。這些數據一方面可以指導店家調整櫥窗陳列,另外一方面還可幫助營銷活動的決策。如果是一個大型 Mall 的業態,或者連鎖店的業態,還可通過進店客流對所有店鋪進行排名,對比分析不同店鋪客流量好與不好的影響因素,進行更加全面的分析與優化。
在第一層漏斗轉換的分析,接下來就是用戶進店后,逛店到購買的轉化。
啤酒尿布這個經典營銷案例的背后就隱含著人 - 貨 - 場關系對營銷的影響,并體現著零售業中非常重要的一個指標:連帶率。它反應了顧客購物的深度和廣度。影響連帶率的因素非常多,人的方面像銷售技巧,比如客戶在麥當勞中買了薯條,售貨員可能會詢問客戶是否需要可樂;在貨的層面,商品的 SKU 是否豐富,擺放是否具備吸引力;在場的層面,貨架之間是否有關聯,場內的游逛軌跡是否合理。如果說第一環節從過店 - 進店是粗力度的客流統計和畫像刻畫。那么第二環節,在逛店模塊就需要對客流做非常細粒度的統計,幫助提升連帶率的指標。
在逛店模塊中,CV 技術再次幫助用戶實現客流軌跡和全場熱力的解決方案。
第一步,場內精細客流的統計。從客流進店后,CV可以做到精確到每一分鐘,每幾小時客流分布情況,以一個服裝店為例,可以精確到男裝、女裝區域的客流分布情況,進行一個細粒度的客流統計;第二步,刻畫客流軌跡。精確到進店后人流行走路線,客流整個的軌跡游逛的動線是怎么樣的;第三步,實現區域熱力的統計。熱力分析的業務價值主要體現在零售 KPI 中的“坪效”的指標(通常是店長和陳列師的 KPI),表征單位面積區域對客戶的吸引能力。
通過實現對場內精細客流的統計、客流軌跡的刻畫和熱區的分析,刻畫場內用戶行為,給到商家科學的可視化的數據,幫助商家合理規劃顧客行走路線、洞察品類、洞察商品相關性,從而實現品類調換,布局優化,以及更加精準的定位人貨場關系。
AI算法與智能硬件
騰訊優圖AI應用研究高級研究員 王川南
在零售的場景中,客流統計、屬性分析以及 VIP 客戶識別的過程跟安防不太一樣,安防大多是局域網的環境,從攝像頭到處理單元基本上都在同一網絡內。但零售場景的遍布全國各地線下商家非常多,攝像頭布置在門店中,數據處理則一般放在云端,這勢必會產生這樣的問題:攝像機的視頻如果上傳時帶寬不夠該如何解決?常規的處理思路一般是使用 AI 攝像頭,在攝像頭側進行 AI 預處理。對于沒有智能的傳統碼流機,騰訊優圖會提供盒子類的解決方案。
在當今這個人工智能惠及生活的時代,大部分用戶都有這樣的疑問:刷臉支付除了考驗人臉識別技術以外,它的安全性如何保證?
首先用戶需了解刷臉支付的開通流程。用戶需在終端上先進行人臉檢測,再進行端和云兩側都需要驗證的活體防攻擊檢測,驗證后會進行人臉核身,就是上傳人臉并與從公安拿到身份證圖片進行比對,驗證本人身份。如果確認,即可開通免密刷臉支付。刷臉支付的使用過程與開通區別不大,但由于用戶規模過大,使用上億人臉庫用來做支付的準確率和風險較大,所以在進行人臉檢測后,通常會要求用戶輸入手機號進行二次確認。但從長遠來看,輸入手機號的過程最終將會淘汰。
對于人臉支付硬件,其中有兩個十分重要的特性,一個是 3D 攝像頭,它主要是進行活體檢測。第二,是在流程當中進行檢測、跟蹤、優選、活體算法的前項計算過程。最早騰訊優圖推出交互式的活體,通過搖頭、眨眼動作驗證真人身份,緊接著推出針對手機的應用場景推出光線活體檢測,以及針對通用設備的紅外活體檢測以及 3D 活體檢測。
紅外雙目活體檢測方案采用的是雙目攝像頭,檢測過程中輸出一張 RGB 圖與一張紅外圖,其算法原理是利用人的皮膚與紙張對紅外光的反射不同,以此保證檢測精度。但如若找到一種與皮膚相類似的材料進行檢測,就不能保證識別的安全性,所以紅外雙目活體多用于刷臉開門等場景。
針對有著更高安全要求的刷臉支付,通常會使用 3D 攝像頭配合檢測,并輸出一張 RGB 的圖與一張人臉深度圖,紙張等平面不存在深度信息,但人臉是有三維深度信息的,其輸出的人臉深度圖就可以用來做活體檢測。
除了深度的要求以外,在實際應用中 RGB 攝像頭的成像質量也至關重要。其實,技術人員是很難判斷人臉支付 POS 機所處的具體環境,比如,若 POS 機放置于窗邊,識別時人臉處于背光的場景,從而無法進行識別,這些都會給 RGB 成像帶來巨大挑戰。這時通常需要與 3D 攝像頭的廠商明確,要求攝像機需優化到適配不同場景都能進行正常識別工作。
有了硬件之后,為了保證算法的流暢運行,還需進行性能加速。NCNN 是目前騰訊優圖已經開源的移動端高性能前向計算框架,它支持卷積神經網絡,支持多輸入和多分枝的結構,支持多核并行加速,可擴展的模型設計,8bit 而量化半精度的存儲,內存占用率比較低,計算速度較快。
為解決維護成本高、網絡不斷加深、用戶規模龐大等問題,騰訊優圖在 NCNN 框架的基礎上推出擁有跨平臺、高性能、模型壓縮、代碼裁剪的 RapidNet 深度學習推斷框架。它可以在各個平臺上提供統一的接口,在性能優化上更加極致。但由于 CPU/GPU 交互延遲高,參數傳輸、數據拷貝耗時過多;網絡中部分層運算量小,GPU 并行度不足;多路處理 CPU 性能不足,負載過大等原因,異構多核 CPU/GPU 加速技術成為了 RapidNet 主要的核心特性之一。其深度融合了基于 AMD 平臺的 OpenCL GPU 并行計算加速技術和基于 IOS 平臺的 Metal 加速技術,完美解決以上問題。
在零售方案中,由于線下門店遍布全國,設備以及服務的可靠性也是至關重要的。騰訊優圖在終端上設計了分層架構,無論前端設備是什么,其接入取流是獨立的一層。把 AI 相關的處理包括檢測、跟蹤、優選以及軌跡處理放于算法層。在算法層之上是服務監控層,監控包括設備的監控、服務的監控。在設備層監控服務基礎之上是網絡監控層,通過分離架構的設計兼容多個終端設備,保證服務的可靠性。
語音技術的應用與實踐
騰訊 AI Lab高級研究員 金明杰
現如今,語音合成若不局限于時效性,完全可以做到與人類相似,語音合成技術也多被運用到導航、智能客服等場景。
語音和聲音其實并不相同,聲音包括大家所能聽到的聲音包括風聲、水聲、車聲、動物生,語音是指人的發生器官發出具有一定社會意義的聲音。語音是人的聲音,機器可以理解的信號通常使用的是音頻信號,音頻信號是一個有規律聲波的信號變化和載體,其特點是采樣率、量化位數和編碼算法。其中,量化位數是每個點采集的信息量,最常見的是 16 比特;在語音識別領域通常使用未壓縮無損的編碼算法進行存儲。
以智能客服為例,從人開始說話到傳輸音頻信號到云端,再做語音檢測、語音識別,之后進行意圖識別,由于通話不僅是一句話就可以完成,所以還需進行任務決策與目標引導,引導完成后再進行播報。其中,當用戶在說話時,從電話里可能會夾雜很多噪聲,這時語音活動檢測能準確的把關注的話語內容挑選出來,從而進行語義理解。
其中,語音識別技術是把人類語音中的詞匯內容轉換成計算機可讀的輸入,簡單來說就是把語音轉為文本。當音頻信號產生后,被傳輸至云端,也就是解碼器。而解碼器中的聲學模型會把音頻信號轉化成建模單元,建模單元通常為拼音,之后接入詞典,通過詞典把拼音轉化為文本,把發音相近的字或詞挑選出來;語言模型部分,把最有可以的字或詞按照時序組合出來,顯示為識別結果文本。
最為常見的聲學模型網絡包括 DNN 網絡以及 CLDNN 網絡。其中,基礎的 DNN 網絡,下層為輸入層,中間包含若干隱層,上層為輸出層。而較為通用的 CLDNN 網絡,C 就是卷積網絡,L 是 LSTM 網絡,D 就是 DNN,其特點為快速收斂,可快速達成較好的識別效果。
人臉核身技術的應用
騰訊云高級產品經理 周吉成
人臉核身技術,換句話說即是實名、實人:實名,就是你的名字是合法有效的。實人,是要證明你是你。
早期人們都有這種體驗,比如說去銀行、運營商開卡都需要本人到現場,領養老退休金的,年紀已經很大了,還要去社保局親自做實人證明,這些成本都非常高。此外,網絡辦事在當下已經很普遍,然而要想進行網上身份驗證依然非常困難,更別說還有身份冒用的問題,以及線下場景遇到檢查卻沒帶身份證的情況。因此,無論央行、運營商還是保險行業都提倡利用 OCR 技術運用至業務流程中以提升效率,這是國內人臉技術的應用背景。
活體檢測方面,最典型的流程是通過遠程進行核身——第一步是身份證 OCR 識別,然后系統提示讀數字,以證明是在場的人,最后再錄制視頻給出最終結果,在這過程中系統會進行照片比對。這個流程會嵌入到很多業務環節里,比如說身份證更新或者身份證號更改。
總的來說,活體核驗技術是一個不斷演化的過程,活體算法在落地實際場景時,實際上是一個用戶體驗與安全性上兩者相互妥協的過程。比如早期做動作交互,用戶就對此表示厭惡,認為這種驗證模式特別傻;后來微眾銀行做讀數字,雖然安全性有所提升,用戶依然不買賬;這才有了后來的「激光守衛」——通過屏幕反光做活體檢測以及更高安全級別的紅外、3D 結構光照。
核身從某種程度上也要做多種模式的融合,才能有更高的安全性,即便如此,依然免不了遭遇很多「攻擊」。遇到這種情況,純粹依賴底層算法是不現實的。其他可考慮的方案就包括接入渠道層面做安全控制、后端風控、人工審核或者多種活體模式的組合。