在傳統(tǒng)的智能分析之上,人工智能、深度學(xué)習(xí)的應(yīng)用將安防推向至深度智能的新階段,一時(shí)間,圍繞著芯片和算法的討論成為業(yè)內(nèi)探討人工智能應(yīng)用必備的說辭。然而基于開源的代碼和網(wǎng)絡(luò)架構(gòu),各廠商采用的芯片和算法大多類似,如何在開源環(huán)境下重塑核心競爭力?
人工智能對(duì)安防行業(yè)業(yè)務(wù)來講,主要是對(duì)傳統(tǒng)的智能分析業(yè)務(wù)的算法升級(jí),而智能分析在安防業(yè)務(wù)應(yīng)用中則主要用來實(shí)現(xiàn)對(duì)包含自然場景的視頻圖像進(jìn)行結(jié)構(gòu)化,其結(jié)構(gòu)化的結(jié)果是對(duì)視頻圖像中的人、車、物等靜態(tài)和和動(dòng)態(tài)目標(biāo)及其各種屬性的檢測與識(shí)別。因此,總體來說,人工智能在解決對(duì)視頻圖像的結(jié)構(gòu)化工作方面比傳統(tǒng)智能分析算法結(jié)構(gòu)化的效果更好,性能更高。
從傳統(tǒng)智能分析算法到人工智能,關(guān)鍵在于神經(jīng)網(wǎng)絡(luò)算法的優(yōu)化升級(jí),而這其中的關(guān)鍵,也正是從CPU過渡到GPU所帶來的突破。
GPU實(shí)現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)的技術(shù)突破
神經(jīng)網(wǎng)絡(luò)并不是一個(gè)新鮮的概念,在上個(gè)世紀(jì)就出現(xiàn)了LeNet網(wǎng)絡(luò),并運(yùn)用在郵政編碼中的數(shù)字識(shí)別。但是使用后向傳播技術(shù),神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練樣本一個(gè)訓(xùn)練樣本時(shí)需要反復(fù)迭代多次,訓(xùn)練集中的樣本越多,運(yùn)算量越大,基于CPU進(jìn)行訓(xùn)練,過程相當(dāng)慢,達(dá)數(shù)日甚至幾個(gè)月之久,這正是制約神經(jīng)網(wǎng)絡(luò)普及的一大因素。
GPU的出現(xiàn)把異常訓(xùn)練過程大大縮短。所以,目前的各種深度神經(jīng)網(wǎng)絡(luò)應(yīng)用都是基于GPU實(shí)現(xiàn)。使用GPU搭建的神經(jīng)網(wǎng)絡(luò)應(yīng)用大都是服務(wù)器形態(tài)。比如2016年10月份宇視科技與NVIDIA聯(lián)合發(fā)布了新一代大容量分布式云結(jié)構(gòu)化智能化分析服務(wù)器(代號(hào)“昆侖”),在4U的高度上支持了80顆NVI DIA JetsonTX1處理器,一臺(tái)“昆侖”可以并發(fā)處理640張/秒的人臉識(shí)別、160路的人員計(jì)數(shù)、80路人車物的結(jié)構(gòu)化分析。
但是使用服務(wù)器實(shí)現(xiàn)智能分析,雖然GPU分析能力很強(qiáng),但是服務(wù)器的視頻解碼壓力很大。最理想的方式是把神經(jīng)網(wǎng)絡(luò)模型部署到前端采集相機(jī),使得相機(jī)在輸出視頻圖像的同時(shí)同步輸出結(jié)構(gòu)化信息。
人工智能在安防領(lǐng)域的應(yīng)用基礎(chǔ)和優(yōu)勢(shì)
目前的人工智能算法大都基于深度學(xué)習(xí)實(shí)現(xiàn),深度學(xué)習(xí)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型是基于海量的訓(xùn)練集,同時(shí)需要訓(xùn)練集中的數(shù)據(jù)具有多樣性和完備性。
安裝在各種場景中的安防攝像機(jī)能夠?qū)崿F(xiàn)24*365天式的全天候的采集,可以源源不斷的輸出海量的數(shù)據(jù)形成訓(xùn)練集,從這個(gè)角度來講,安防行業(yè)以其源數(shù)據(jù)信息量最大、數(shù)據(jù)層次最豐富的特性展現(xiàn)了在人工智能應(yīng)用方面先天的優(yōu)勢(shì)。
安防領(lǐng)域人工智能應(yīng)用需要解決的問題
人工智能的應(yīng)用已然成為趨勢(shì),但要進(jìn)入到下一階段的規(guī)模化應(yīng)用,目前必須先解決這樣幾大問題:
1)視頻圖像結(jié)構(gòu)化工作適合放在前端智能相機(jī)實(shí)現(xiàn),不宜全部放在后端服務(wù)器端,雖然服務(wù)器上插有多塊GPU顯卡,因?yàn)槎嗦芬曨l解碼會(huì)對(duì)服務(wù)器造成壓力,而這對(duì)GPU來說并不擅長。深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)部署在前端智能相機(jī)就需要強(qiáng)大而又附有擴(kuò)展性的人工智能芯片(不論是ASIC模式還是IP加速引擎模式),而目前來看,能提供這樣功能的芯片的廠商很少,同時(shí)各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)層出不窮,現(xiàn)階段這個(gè)領(lǐng)域的技術(shù)發(fā)展還不很成熟,但這是未來的方向;
2)有了人工智能芯片,下一個(gè)差距就體現(xiàn)在大數(shù)據(jù)集上,所以對(duì)安防廠商來講,其最大的優(yōu)勢(shì)就在于是否建立起完備的海量訓(xùn)練數(shù)據(jù)集。現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練都是監(jiān)督學(xué)習(xí)模式,所以需要對(duì)每個(gè)學(xué)習(xí)樣本依照完成的任務(wù)建立相應(yīng)的監(jiān)督標(biāo)簽,這是耗時(shí)耗人力的工作,海量數(shù)據(jù)訓(xùn)練集是用戶看不到的競爭優(yōu)勢(shì);
3)是否建立起可擴(kuò)展的、快速、可移植的深度學(xué)習(xí)框架。對(duì)于深度學(xué)習(xí)來講,隨著訓(xùn)練集的不斷變化,或者更優(yōu)秀的網(wǎng)絡(luò)模型的出現(xiàn),需要建立起一個(gè)可擴(kuò)展的深度學(xué)習(xí)框架。所謂的可擴(kuò)展,指的是訓(xùn)練環(huán)境能夠擴(kuò)展到多個(gè)GPU(跨多個(gè)主機(jī)),使用更大更復(fù)雜的訓(xùn)練數(shù)據(jù)集,以訓(xùn)練更復(fù)雜的模型的能力。由于深度學(xué)習(xí)模型可能需要幾天或者幾個(gè)星期才能訓(xùn)練一次,因此即便是溫和地改進(jìn),也會(huì)對(duì)新模型的開發(fā)和評(píng)估速度產(chǎn)生巨大影響。同時(shí)選擇的深度學(xué)習(xí)框架能夠快速構(gòu)建新模型和更新現(xiàn)有模型的能力。最終訓(xùn)練得到的網(wǎng)絡(luò)模型可能運(yùn)行在多種設(shè)備和平臺(tái)上,從多種服務(wù)器到多種智能相機(jī),同時(shí)需要升級(jí)模型的智能相機(jī)一般都安裝在距離比較遠(yuǎn)的位置,所以訓(xùn)練得到的模型必須具備充分的可移植性。目前可用的深度學(xué)習(xí)平臺(tái)有Caffe、CNTK、MXNet、TensorFlow、Theano和Torch。
人工智能大環(huán)境下廠商的競爭之道
現(xiàn)在的各種深度學(xué)習(xí)框架代碼都已經(jīng)開源,甚至一些訓(xùn)練好的網(wǎng)絡(luò)模型也開源了,開源的方式無疑推動(dòng)了行業(yè)的快速發(fā)展,因?yàn)楝F(xiàn)在的人工智能,僅憑一己之力做好會(huì)很慢,必須通過群策群力共同把人工智能做好,芯片廠商提供可用于后端服務(wù)器和前端智能相機(jī)的人工智能芯片,安防廠商基于自有的海量數(shù)據(jù)集,訓(xùn)練特有的神經(jīng)網(wǎng)絡(luò)模型。人工智能芯片和海量訓(xùn)練數(shù)據(jù)集相輔相成,共同打造高性能的神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)高質(zhì)量的視頻圖像結(jié)構(gòu)化,最終借助開源的力量,大家共同獲利。
基于開源的代碼和網(wǎng)絡(luò)架構(gòu),各廠商采用的芯片和算法大多類似,但對(duì)深度學(xué)習(xí)來講,根本的競爭力并不在算法和芯片上,真正的核心也并不是神經(jīng)網(wǎng)絡(luò)代碼和網(wǎng)絡(luò)結(jié)構(gòu),而是基于具體行業(yè)應(yīng)用的海量訓(xùn)練數(shù)據(jù)集,以及是否建立起快速的、可擴(kuò)展的、可移植的學(xué)習(xí)框架。有了基于行業(yè)的獨(dú)有的海量訓(xùn)練數(shù)據(jù)集,就可以訓(xùn)練得到相對(duì)競爭對(duì)手更優(yōu)秀的模型。有了更優(yōu)異的學(xué)習(xí)框架,就能夠快速的不斷的訓(xùn)練出新的更優(yōu)秀的模型,并對(duì)新模型進(jìn)行快速部署,不斷的保持競爭優(yōu)勢(shì)。