基于AI深度認知技術在智慧城市安防中應用與前景

責任編輯：zsheng |來源：企業網D1Net 2018-08-18 16:18:44 本文摘自：《中國安防》

人工智能是計算機科學的一個分支，它企圖了解智能的實質，并生產出一種新的能以人類智能相似的方式作出反應的智能機器，該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。

深度學習是當前最熱的人工智能研究領域，實現人工智能有三種路線：一是基于邏輯方法進行功能模擬的符號主義路線，代表領域有專家系統和知識工程;二是基于統計方法的仿生模擬的連接主義路線，代表領域有機器學習和人腦仿生;三是行為主義，希望從進化的角度出發，基于智能控制系統的理論、方法和技術，研究擬人的智能控制行為。

安防領域一直被認為是人工智能落地最快、最好的行業之一。首先，以視頻技術為核心的安防行業擁有海量的數據來源，可以充分滿足人工智能對于算法模型訓練的要求;其次，安防行業事前預防、事中響應、事后追查的訴求與人工智能的技術邏輯完全吻合。伴隨高清化、深度學習、云存儲、GPU 的研發進展，人工智能為解決安防領域問題提供了新的思路，逐漸由硬件向軟件、算法轉變，提高視頻價值，讓用戶看得完、看得懂。

基于AI的深度認知技術在安防領域的關鍵技術

深度卷積神經網絡解決視頻圖像識別

目前深度學習網絡有很多種架構，有基于自編碼器的架構，基于玻爾茲曼機的架構以及基于卷積神經網絡的架構等。其中基于卷積神經網絡的深度卷積神經網絡(DCNN)，已成為當前語音分析和圖像識別領域的研究熱點。它的權值共享網絡結構使之更類似于生物神經網絡，降低了網絡模型的復雜度，減少了權值的數量。為此，可以采用深度卷積神經網絡解決視頻圖像識別問題。

卷積神經網絡與傳統的神經網絡一樣，擁有輸入層、隱含層和輸出層。其中它的隱含層包括低隱含層和高隱含層，低隱含層由卷積層和下采樣層交替成對組成;高隱含層是與傳統神經網絡隱含層類似的全連接層。輸出層是一個分類器，可以用采集邏輯回歸、softmax回歸或者支持向量機等對圖像進行分類。

卷積層

卷積神經網絡主要是通過“局部感知野”和“權值共享”兩個理論來降低網絡模型復雜度、減少權值數量。

“局部感知野”是1962年Hubel和Wiesel通過對貓視覺皮層細胞的研究提出來的概念。一般認為，視覺皮層的神經元就是局部接受信息的(即，這些神經元只響應某些特定區域的刺激)。同理，人們推斷圖像的空間聯系也是局部的像素聯系較為緊密，而距離較遠的像素相關性則較弱。因而，人工神經網絡中，每個神經元其實沒有必要對全局圖像進行感知，只需要如下圖2所示，對局部進行感知，然后在更高層將局部的信息綜合起來就得到了全局的信息。

采用局部感知區域為10*10的方法，可以將1000*1000像素圖像每層之間1012個全連接參數降低至108個局部連接參數。“權值共享”是指圖像的一部分的統計特性與其他部分是一樣的。這也意味著我們在這一部分學習的特征也能用在另一部分上，所以對于這個圖像上的所有位置，我們都能使用同樣的學習特征。在局部連接的神經網絡中，“權值共享”意味著讓所有的局部感知區域的權值一致。采用權值共享的方法，可以將1000*1000像素圖像每層108個局部連接的參數降低至100個局部連接共享參數。

通過卷積的方式實現“局部感知野”和“權值共享”的神經網絡就是卷積神經網絡。

下采樣層

卷積神經網絡在通過卷積獲得了特征之后，還需要再添加一個下采樣層與之配對。這是因為卷積一個大圖像(例如1000*1000)得到的特征向量維數將會非常大，容易出現過擬合。下采樣層通過對不同位置的特征進行聚合統計(例如，計算圖像一個區域上的某個特定特征的平均值或最大值)，不僅保留了有用信息，同時可以降低數據量、改善結果(不容易過擬合)，更重要的是能夠保持某種不變性(旋轉、平移、伸縮等)。

由于圖像的識別特征具有層次性(具有“像素-低級特征-對象部分-對象”的層次結構)，其中低層圖像特征具有較低的抽象性，高層圖像特征具有較高的抽象性，通過組合底層特征能夠形成更加抽象的高層表示。因此本項目將建立一種含有四對“卷積層-下采樣層”的深度卷積學習模型。其中卷積核大小和卷積核數將會根據實際數據進行對比測試確定，輸出層采用的分類模型將會根據采集邏輯回歸、softmax回歸以及支持向量機的具體表現進行抉擇。

基于深度卷積網絡的圖像目標檢測分類算法

基于深度卷積網絡的圖像目標檢測分類，常用的算法包括：R-CNN、SPP-NET、FAST-R-CNN、FASTER-R-CNN、YOLO、SSD等。

2013年，Ross提出了R-CNN(Region cnn，基于區域的卷積神經網絡)的模型方法，采用對Region proposal(區域候選)提取CNN特征。R-CNN的目標檢測主要方法包括采用回歸目標窗口和滑動窗口，它的主要測試過程如下：

● 給定一張圖片，利用selective search方法來產生2000個候選窗口。

● 利用CNN進行對每一個候選窗口提取特征，特征長度為4096維度。

● 最后用SVM分類器對這些特征進行分類(每一個目標類別一個SVM分類器)。

但是R-CNN的計算時間太長，重復計算太大，因此微軟亞洲研究院何凱明等人在R-CNN的基礎上提出了SPP-NET(Spatial Pyramid Pooling-Net，空間金字塔池化網絡)的模型架構，SPP-NET主要是修改了最后一層卷積層后的最大池化層，將其用空間金字塔池化層代替，這樣做的好處在于首先對輸入圖像尺度無限制，同時輸出的是定長特征，但運用滑動窗口的池化技術就無法達到這樣的效果;其次SPP可運用不同大小的池化窗口，但CNN只能是單一的窗口;接著SPP可從尺度變化中提取特征;另外可以大大提高了圖像處理速度，是R-CNN方法的24-102倍。

盡管如此，SPP-NET仍舊存在缺陷：

一是SPP-NET雖然極大地提高了R-CNN的速度，但和R-CNN一樣，他們的訓練過程都是一個多階段過程：即包含著特征抽取，網絡徹調，分類器SVM的訓練及最后的對BoundingBox(邊界框)回歸器的匹配。

二是SPP-NET中用到的微調技術只能更新FC層，這無疑限制了深度CNN的潛力。

FAST-R-CNN(fast region CNN，快速區域的卷積神經網絡)是在R-CNN和SPP-NET基礎上提出的一種利用深度卷積神經網絡對快速檢測目標的方法。

由于R-CNN和SPP-NET共同存在以下缺點：

1.訓練的時候傳遞途徑是隔離的，即首先提取候選框，然后利用CNN提取特征，之后用SVM分類器，最后再做邊界框的回歸。而FAST-R-CNN實現了端對端的聯合訓練。

2.訓練時間和空間開銷大。R-CNN中ROI-centric的運算開銷大，所以FAST-R-CNN用了圖像中心的訓練方式來通過卷積的共享特性來降低運算開銷;R-CNN提取特征給SVM訓練的時候需要大量的磁盤空間存放特征，FAST-R-CNN去掉了SVM這一步，所有的特征都暫時存儲于顯存中，不需要額外的磁盤空間。

3.測試時間開銷大。依然是因為ROI的原因，這點SPP-NET己經改進，然后FAST-R-CNN進一步通過單尺度測試和SVD分解全連接來提升速度。

面向時空關聯語義分析的多源數據融合模型

視頻內容的識別和理解是實現智慧型應用服務的關鍵技術點。傳統的識別方法通常針對單一的分析源中的顏色、形狀、運動軌跡等特征進行分析。這樣的分析結果往往導致本身存在強關聯的對象之間的關系無法建立，從而丟了視頻中本身包含的大量潛在信息。

通過對多種關聯數據進行分析，可以挖掘出更有價值的應用，例如刑偵線索分析、案件規律分析、社會輿情分析、金融詐騙分析、公共交通優化等。如何對這些海量的融合數據進行清洗和選擇，并建立有效的分析模型是一個有趣的挑戰。因此，本項目將采用多源數據融合的方式實現多通道、全時空的語義分析。

多源數據融合可以分為3種思路與方法：

數據層融合。先對各模態的視頻數據進行簡單組合形成新的特征向量，再進行后續的常規分類或識別等過程。

特征層融合。從單模態視頻數據中提取有效互補的特征，通過時間尺度等規則將這些特征有機結合在一起，作為統一的多模態數據特征。

決策層融合。從不同模態的視頻數據中分別提取特征，通過模式識別過程獲得識別結果與權重，在通過融合策略獲得最后的判別或者識別結果。

與傳統基于單源數據的方法相比，多源數據融合把多個數據源在時間和空間上冗余或互補的信息依據某種準則進行組合，獲取被觀測對象的一致性解釋或描述，以便能夠擴展時空的覆蓋范圍，減少信息的模糊性，增加對目標行為確認的可信度，改善系統的可靠性。尤其系統借助GIS獨特的地理空間分析能力、快速的空間定位搜索和復雜的查詢功能、強大的圖形處理和表達能力，可以直觀地在地圖上顯示各個攝像頭的位置，在事件發生時也會根據攝像頭的位置在地圖上標出地點，幫助辦案人員快速了解事件地點及其周邊信息。

基于AI的深度認知技術在安防領域的應用與前景

人工智能將在安防領域發展空間巨大

人工智能在安防領域的應用主要分為警用、民用兩個方向。其中，在公安領域，可以通過海量數據提取線索、鎖定目標軌跡;在交通領域，可以通過分析交通流量、提升通行效率;智能樓宇及園區領域，可以通過智能監控建筑安防、降低能耗;民用安防領域，則通過提供差異化服務實現人性化管理。

在市場上，人工智能當前還處于應用前期，這注定其處于較高的價位，如要進行大面積應用，必然會對其價格提出較為適宜的要求。隨著人工智能在安防領域的大面積應用，必然會催生更加適合應用場景的技術創新，使得人工智能能夠適應多種應用場景，真正實現落地實用。

深度學習和高效計算加速人工智能在安防領域落地

支持人工智能在安防領域內得以落地的關鍵技術就是深度學習與高效計算。眾所周知，由于深度學習的出現使得人臉識別技術得到突飛猛進的發展，由原來的實驗室階段一躍成為現場可使用的技術，但是深度學習帶來的另外一個負面效應就是超大計算量。由于傳統的CPU不適合并行的圖像運算，使得人臉的解決方案面臨高昂的代價，而GPU(或TPU)等高密度計算的出現極大地緩解了深度學習對計算資源的需求，使得人工智能最終實現落地。

人工智能在社會綜合防控的前景

健全社會治安形勢分析研判機制，情報主導警務的理念，利用人工智能對重點人員、重點車輛、重點物品所產生的海量監測數據進行實時收集、處理、挖掘，并通過機器學習的方法對數據進行建模，建立健全社會治安情報信息分析研判機制，定期對社會治安形勢進行分析研判。加強對社會輿情、治安動態和熱點、敏感問題的分析預測，加強對社會治安重點領域的研判分析，及時發現苗頭性、傾向性問題，提升有效應對能力。建立健全治安形勢播報預警機制，增強群眾自我防范意識。

人工智能在智慧安防的應用前景

安防本身業務應用的需求決定了安防人工智能市場的潛在需求巨大。智慧安防技術主要由人工智能算法、高性能計算、分布式計算和存儲、大規模運維等構成。其中視覺智能算法主要涉及人臉識別、車輛車型識別、文字識別、目標跟蹤、圖像特征搜索等技術。應用先進的人工智能算法，包括深度學習、統計建模技術，創新性的解決技術和應用結合的難題，能有效處理大規模樣本(億級訓練樣本)和少量訓練樣本的機器學習問題。未來人工智能將在智慧城市中得到更加廣泛的應用，是智慧安防的下一個技術發展風口。

結語

智慧城市需要智慧的軀體和智慧的大腦，推進城市超腦工程建設，結合云計算、大數據、可視化運行平臺、基于實景地圖與MR展示的智能分析應用的建設，讓人工智能在大數據環境下充分發揮碎片化大數據的認知機理，通過深度學習，讓機器能理解和會思考，有效整合各部門所掌握的全市經濟社會信息資源，滿足政府業務對數據資源共享需要，進而提升形勢分析預測水平，對政府在發展規劃、投資布局、資源環境、管理創新、科學決策等業務提供強有力支持，提高了政府部門掌控全市經濟社會發展態勢的能力。

關鍵字：應用安防智慧城市技術