新的科學(xué)技術(shù)不斷涌現(xiàn)出現(xiàn),雖然從引起工業(yè)界的關(guān)注至今僅過了4個年頭,深度學(xué)習已然得到了安防產(chǎn)業(yè)的青睞。未來,深度學(xué)習技術(shù)與人工智能將會更加成熟,它們與安防的結(jié)合將會碰撞出怎樣的火花?
安防監(jiān)控系統(tǒng)是應(yīng)用光纖、同軸電纜或微波在其閉合的環(huán)路內(nèi)傳輸視頻信號,并從攝像到圖像顯示和記錄構(gòu)成獨立完整的系統(tǒng)。它能實時、形象、真實地反映被監(jiān)控對象,不但極大地延長了人眼的觀察距離,而且擴大了人眼的機能,它可以在惡劣的環(huán)境下代替人工進行長時間監(jiān)視,讓人能夠看到被監(jiān)視現(xiàn)場實際發(fā)生的一切情況,并通過錄像機記錄下來。
神經(jīng)網(wǎng)絡(luò)、深度學(xué)習與神經(jīng)生物學(xué)之間啟發(fā)式的聯(lián)系
19世紀末期20世紀初從事解剖學(xué)領(lǐng)域研究的科學(xué)家們提出的神經(jīng)元理論奠定了現(xiàn)代神經(jīng)系統(tǒng)研究的基礎(chǔ),而這也成為了40年之后其它領(lǐng)域的科學(xué)家們設(shè)計神經(jīng)網(wǎng)絡(luò)模型的靈感之源。從1940年至1980年這40年間,心理學(xué)家、數(shù)學(xué)家以及計算機科學(xué)家們基于此理論(與圖模型理論深度結(jié)合)不斷地改進模型,使人工神經(jīng)網(wǎng)絡(luò)算法逐漸從理論探討邁向了工程實踐。具體來說,神經(jīng)元理論提出的神經(jīng)元和突觸概念被抽象化為DAG(或者UAG)中的頂點與邊,從而組成了一個完整的神經(jīng)網(wǎng)絡(luò)模型(例如多層感知機);理論提出的聯(lián)結(jié)特異性原理(特定的神經(jīng)元只能與另外一些特定神經(jīng)元發(fā)生聯(lián)系)進一步激發(fā)了諸如嚴格玻爾茲曼機的研究;而動態(tài)極化原理(在神經(jīng)元內(nèi)部信號僅向一個方向傳遞)則幫助人們設(shè)計出了經(jīng)典的前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
而對靈長類動物初級視覺系統(tǒng)的研究,人們基于視網(wǎng)膜上的神經(jīng)節(jié)細胞只能對視場中某一特定位置產(chǎn)生響應(yīng)(感受野)這個事實,創(chuàng)造性地將卷積、池化等引入了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中,如此簡潔精妙的設(shè)計構(gòu)思有效限制了由于網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜而引起的參數(shù)爆炸性增長;同時還提高了算法的計算效率。
其余的例子不勝枚舉。神經(jīng)元細胞彼此之間發(fā)生的抑制作用讓神經(jīng)網(wǎng)絡(luò)(特別是深度學(xué)習)的設(shè)計者們創(chuàng)造出了各種技巧。視覺上的側(cè)抑制效應(yīng)則催生了局部響應(yīng)歸一化層的構(gòu)造;而我們從ReLU、Dropout等設(shè)計上不難看出神經(jīng)元細胞之間互補性控制的影子。
深度學(xué)習算法則是基于上述事實對人腦進一步的仿生方式。人類的大腦皮層由四個區(qū)域構(gòu)成:額葉、頂葉、枕葉、顳葉。神經(jīng)生物學(xué)研究表明,在枕葉中存在著兩條信息處理通路:腹側(cè)通路與背側(cè)通路,其中腹側(cè)通路從枕葉向下延伸至顳葉下部,加工對象或場景的視覺外觀,如形狀、顏色、亮度、質(zhì)地和大小等。進一步的研究表明,腹側(cè)通路中,不同區(qū)域內(nèi)的神經(jīng)元僅對特定的視覺基元(visualprimitives)產(chǎn)生響應(yīng)。例如,V1區(qū)域?qū)唵蔚倪吘壟c紋理產(chǎn)生響應(yīng);V2區(qū)域?qū)ι鲜鲞吘壟c紋理組合形成的簡單形狀產(chǎn)生響應(yīng);而V4區(qū)域則對上述形狀組合而成的更高級特征產(chǎn)生響應(yīng)。連同將原始光信號轉(zhuǎn)換為生物電信號的人眼視網(wǎng)膜組織,腹側(cè)通路的這些區(qū)域形成了一條自底向上的信息處理鏈。信息從原始的像素開始,逐級抽象,從簡單到復(fù)雜,低級到高級,形成了人類的視覺認知。打個比方,卷積神經(jīng)網(wǎng)絡(luò)好比是大腦皮層的枕葉(負責處理視覺信息),而循環(huán)神經(jīng)網(wǎng)絡(luò)則是大腦皮層的顳葉(負責處理時域信息)。
安防監(jiān)控產(chǎn)業(yè)與深度學(xué)習之間的聯(lián)系
現(xiàn)在讓我們將討論的話題切換到安防領(lǐng)域上來。安防監(jiān)控系統(tǒng)是應(yīng)用光纖、同軸電纜或微波在其閉合的環(huán)路內(nèi)傳輸視頻信號,并從攝像到圖像顯示和記錄構(gòu)成獨立完整的系統(tǒng)。它能實時、形象、真實地反映被監(jiān)控對象,不但極大地延長了人眼的觀察距離,而且擴大了人眼的機能,它可以在惡劣的環(huán)境下代替人工進行長時間監(jiān)視,讓人能夠看到被監(jiān)視現(xiàn)場實際發(fā)生的一切情況,并通過錄像機記錄下來。同時報警系統(tǒng)設(shè)備對非法入侵進行報警,產(chǎn)生的報警信號輸入報警主機,報警主機觸發(fā)監(jiān)控系統(tǒng)錄像并記錄。從對安防監(jiān)控的描述中我們可以知道,信號的來源主要為視頻和圖像,換而言之主要的信號源與“視覺”相關(guān)。用通俗的話來進行描述,安防監(jiān)控系統(tǒng)就是通過器械(攝像頭等)讓人們“看”到外部世界并對“感興趣”事件產(chǎn)生預(yù)警的系統(tǒng)。
傳統(tǒng)的安防監(jiān)控系統(tǒng)以“人防”為主,但人防的缺點顯而易見:隨著需要監(jiān)控的視頻通道數(shù)的增加,所需的人力也會相應(yīng)增加,其直接影響就是遠高于收益的人力成本與遠低于回報的工作效率。正是由于這個原因,現(xiàn)在的安防監(jiān)控系統(tǒng)都以“技防”為主,即用無間歇工作的智能算法來代替無法長時間保持高效的人力對視頻畫面進行監(jiān)控。而讓智能算法徹底代替人力的愿景,在深度學(xué)習出現(xiàn)以前,如同科幻小說一般,僅僅停留在人們的腦海中,猶如紙上談兵,無法落地。雖然傳統(tǒng)的智能算法能夠在特定環(huán)境和特定時間下表現(xiàn)出良好的性能,但只要一項因子發(fā)生改變(畫質(zhì)、環(huán)境等),傳統(tǒng)智能算法在應(yīng)用上表現(xiàn)出的性能就會出現(xiàn)明顯的下降。換句話說,傳統(tǒng)的智能算法相比于人類的大腦,欠缺的是對于所學(xué)“知識”的遷移能力。欠缺這種能力的本質(zhì)原因則需要讀者對機器學(xué)習具備一定的了解:實際問題中數(shù)據(jù)的分布呈現(xiàn)出高度的復(fù)雜性,我們感興趣的對象的特征往往位于嵌入在更高維度的空間中的低維流型上。流型的維度雖低,但其幾何結(jié)構(gòu)并不簡單。更加嚴格地說,其超表面呈現(xiàn)高度的非線性性。傳統(tǒng)的智能算法背后其實對應(yīng)著傳統(tǒng)的機器學(xué)習方法,而這些傳統(tǒng)的機器學(xué)習方法大多被設(shè)計使用線性超曲面來近似表征數(shù)據(jù)的流型;另外一些方法則通過所謂的核技巧來進行線性到非線性的“魔法”。這些方法雖然具有很好的數(shù)學(xué)定義,有些甚至具備優(yōu)雅的解析解,但“現(xiàn)實往往是殘酷的”:數(shù)學(xué)是人們形式化用于描述自然界如何工作的途徑,但對于人類大腦而言,目前的科技水平并沒有解碼其工作原理。因此,確定的、有邏輯因果聯(lián)系的過程在目前看來并不適用于這個領(lǐng)域。
而深度學(xué)習則另辟蹊徑,在神經(jīng)網(wǎng)絡(luò)設(shè)計之初人們就賦予了其仿生的屬性。這門學(xué)科與其說是一門科學(xué),還不如說是一門藝術(shù)。目前大部分行之有效的技巧或方法往往來自于研究人員的直覺,而不是嚴謹?shù)耐茖?dǎo)。對此詳細的說明超出了本文的范疇,在這里省略。總而言之,深度學(xué)習中的一個重要分支——卷積神經(jīng)網(wǎng)絡(luò)及其相關(guān)技巧解決了(在若干特定任務(wù)上,已經(jīng)接近甚至超越了人類視覺系統(tǒng))計算機如何“看世界”的問題;而智能安防產(chǎn)業(yè)的首要數(shù)據(jù)來源便是圖像和視頻,因此這兩者能夠獲得相當高的默契度。
雖然從引起工業(yè)界的關(guān)注至今僅過了4個年頭,深度學(xué)習已然得到了安防產(chǎn)業(yè)的青睞。由于其對人類視覺系統(tǒng)的模仿,凡是人眼能夠勝任的智能安防應(yīng)用,都可以應(yīng)用深度學(xué)習技術(shù)得以解決(不同程度上地)。往廣的范疇上來說,智能應(yīng)用無非是檢測、跟蹤、識別三大主流方向;而如今無論是學(xué)術(shù)界還是工業(yè)界,這三大視覺主流方向已經(jīng)牢牢地被深度學(xué)習占領(lǐng)了。相比于傳統(tǒng)的智能算法,融合了深度學(xué)習的智能算法所得到的性能往往是突破性的。毫不夸張地打個比方,就好像四缸渦輪增壓發(fā)動機與普通柴油發(fā)動機的區(qū)別。圍繞著這三大主流應(yīng)用方向,深度學(xué)習的觸角觸及了行業(yè)的方方面面:人臉檢測、車輛檢測、非機動車檢測、人臉識別、車輛品牌識別、行人檢索、車輛檢測、人體屬性、異常人臉檢測、人群行為分析、各種感興趣目標的跟蹤……
讓深度學(xué)習能夠如此大行其道的關(guān)鍵要素是數(shù)據(jù),這也是深度學(xué)習獨創(chuàng)性的哲學(xué)——從數(shù)據(jù)中學(xué)習特征(數(shù)據(jù)的表征)——的立命之本。也就是說,大數(shù)據(jù)造就深度學(xué)習。而占大數(shù)據(jù)總量60%以上的為視頻監(jiān)控數(shù)據(jù),同時每年仍舊以20%的速度遞增。這樣的速度與規(guī)模得益于監(jiān)控視頻的高清化——1080P已經(jīng)越來越普及,4K甚至更高的分辨率逐漸在重要場所得到應(yīng)用——以及人們對營造智能安全的社會居所的迫切需求。
更加讓人們感到充滿希望的是,深度學(xué)習算法不僅僅被動地接受數(shù)據(jù);相應(yīng)地,它在吸收原有數(shù)據(jù)的基礎(chǔ)上,能夠增量式地提升模型的性能,給予數(shù)據(jù)的選擇過程一種反饋——形成一種數(shù)據(jù)選擇機制,能夠分辨哪種類型的數(shù)據(jù)有助于持續(xù)提升模型性能,哪種類型的數(shù)據(jù)則是毫無幫助的——從而最終形成一種良性循環(huán)體系。
未來的安防產(chǎn)業(yè)
歷史已經(jīng)昭示,科學(xué)技術(shù)的發(fā)展趨勢呈現(xiàn)高度的指數(shù)性質(zhì),初始階段為線性或者次線性,而加速階段則是超線性。安防產(chǎn)業(yè)也不例外。
未來是不可預(yù)知的,因此對于未來安防產(chǎn)業(yè)的預(yù)測也是自由的。我認為未來的安防產(chǎn)業(yè)將呈現(xiàn)兩極化的趨勢:更加偏重于宏觀的智慧城市大安防化與更加側(cè)重于微觀的民用服務(wù)微安防化。這兩者的發(fā)展都離不開高度互聯(lián)的物聯(lián)網(wǎng)技術(shù)以及接近完美的人工智能技術(shù)。前者在很多安防類文獻或書籍中都被頻繁說明,在此由于篇幅所限不再贅述。由于所提甚少(即使被提起,也是在其它領(lǐng)域),我個人更加偏好于對后者的闡述。