過去幾年中,得益于高速計(jì)算芯片(GPU)及大量的標(biāo)注數(shù)據(jù),作為當(dāng)下最流行的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)在醫(yī)療領(lǐng)域、制造業(yè)領(lǐng)域及商業(yè)等各個(gè)應(yīng)用領(lǐng)域中都取得了突破性的成績(jī),隨著人工智能技術(shù)的不斷革新,未來, AI將會(huì)以各種不同的應(yīng)用形態(tài)出現(xiàn)在我們身邊,未來的AI發(fā)展速度也將超越摩爾定律。
文/毛敏 浙江大華技術(shù)股份有限公司智能算法工程師
深度學(xué)習(xí)算法與傳統(tǒng)機(jī)器算法的比較
由于幾乎所有的人工智能領(lǐng)域的問題都可以轉(zhuǎn)化為分類問題,因此機(jī)器學(xué)習(xí)的基本步驟可分為如下形式:目標(biāo)預(yù)處理-特征提取-目標(biāo)分類,機(jī)器學(xué)習(xí)是一個(gè)級(jí)聯(lián)串行結(jié)構(gòu),因此每一環(huán)節(jié)的處理結(jié)果都會(huì)影響到最后的分類效果,在傳統(tǒng)的機(jī)器學(xué)習(xí)中針對(duì)其中的各個(gè)環(huán)節(jié)都有其各自獨(dú)立的算法:
目標(biāo)預(yù)處理:直方圖歸一化,傾斜矯正,形態(tài)學(xué)處理等;
特征提?。篖BP,Haar,SIFT,SURF(Handcrafted Feature Extractor),Cluster,BOW(bag of word), Fisher vector,PCA,LDA(Unsupervised features);
分類器:SVM,Decision tree, Ensample(集成分類器);
由于上述方法具有各自獨(dú)立性,因此傳統(tǒng)機(jī)器學(xué)習(xí)算法在處理問題時(shí)需要對(duì)各個(gè)環(huán)節(jié)進(jìn)行優(yōu)化,并通過組合優(yōu)化方法在各個(gè)模塊中選取最優(yōu)的組合方式。
與傳統(tǒng)機(jī)器學(xué)習(xí)相比深度學(xué)習(xí)可以把機(jī)器學(xué)習(xí)中的各個(gè)部分合成為一個(gè)整體結(jié)構(gòu),通過統(tǒng)一的訓(xùn)練方法(Backpropagation)對(duì)其中所有的參數(shù)進(jìn)行調(diào)節(jié)。當(dāng)前人們所指的深度學(xué)習(xí)主要是以CNN(卷積網(wǎng)絡(luò))為核心的一系列應(yīng)用算法,其算法結(jié)構(gòu)如下圖所示:
PT1:CNN(卷積網(wǎng)絡(luò))算法結(jié)構(gòu)
上圖中的每一層都是采用卷積方式與某一卷積核進(jìn)行卷積所得到的結(jié)果,每一結(jié)果代表了從原始圖像所提取的特征,通過級(jí)聯(lián)方式對(duì)圖像或信號(hào)進(jìn)行特征提取,最后得到人們想要的分類結(jié)果。
2000年以前,深層網(wǎng)絡(luò)較難收斂,其原因是傳統(tǒng)的網(wǎng)絡(luò)采用的激勵(lì)函數(shù)為sigmoid/tanh函數(shù),其受初始化影響較大且會(huì)產(chǎn)生梯度消失的情況。直到2006年Hitton提出了RBM方法對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,之后采用了ReLU作為激活函數(shù)使得深度學(xué)習(xí)在數(shù)據(jù)量相對(duì)較小的任務(wù)中無需采用預(yù)訓(xùn)練模型的方式來訓(xùn)練網(wǎng)絡(luò)。
到2000中期,卷積神經(jīng)網(wǎng)絡(luò)盡管已經(jīng)在物體分類方面取得了較好的成績(jī),但其效果還是比傳統(tǒng)方法略差。其原因主要有兩方面,一是帶標(biāo)簽的訓(xùn)練樣本太少;二是計(jì)算機(jī)的計(jì)算效率太低。直到2012年,F(xiàn)ei-Fei Li推出多達(dá)120萬張標(biāo)注樣本的ImageNet訓(xùn)練數(shù)據(jù)集,NVIDIA提供了高效并行計(jì)算工具,極大的提升了卷積神經(jīng)網(wǎng)絡(luò)在物體分類方面的速度和準(zhǔn)確性。
CNN應(yīng)用舉例:
PT2:目標(biāo)檢測(cè)
PT3:姿態(tài)估計(jì)
PT4:圖像描述
PT5:場(chǎng)景解析及標(biāo)注
上述基于圖像或視頻的應(yīng)用特別是基于深度學(xué)習(xí)目標(biāo)檢測(cè)與識(shí)別方法可應(yīng)用于城市監(jiān)控、智能交通及行為分析等。
深度學(xué)習(xí)算法優(yōu)化及技術(shù)應(yīng)用存在的問題
憑借在目標(biāo)檢測(cè)與識(shí)別方面出色的算法能力,以智能安防為首的多個(gè)行業(yè)正在掀起一場(chǎng)基于深度學(xué)習(xí)算法的應(yīng)用浪潮,而在這個(gè)過程中,深度學(xué)習(xí)在算法優(yōu)化和技術(shù)應(yīng)用上依舊存在一些待解決的問題。
首先,深度學(xué)習(xí)開發(fā)平臺(tái)尚未統(tǒng)一,當(dāng)前深度學(xué)習(xí)的平臺(tái)主要包括:Caffe、Torch、Theano、TensorFlow等,各個(gè)平臺(tái)間的數(shù)據(jù)接口仍未統(tǒng)一,因此同一套算法需要根據(jù)不同平臺(tái)提供不同的版本,算法移植成本較大,且給不同算法間的評(píng)估帶來了一定難度;
其次,算法優(yōu)化方向尚不明確,與傳統(tǒng)算法相比深度學(xué)習(xí)可以看成是一個(gè)黑箱模型,因此當(dāng)算法效果較差時(shí)很難評(píng)估具體是其中的哪個(gè)部分出了問題,當(dāng)前的經(jīng)驗(yàn)方法是采用更深的網(wǎng)絡(luò)結(jié)構(gòu),增大樣本量,此外尚無較明確的算法優(yōu)化方法;
最后,在理論研究方面,目前從理論角度理解深度學(xué)習(xí)主要有這樣幾大方向:1、深度網(wǎng)絡(luò)中的目標(biāo)函數(shù)的幾何特征是怎樣的?2、從理論角度來解釋卷積網(wǎng)絡(luò)的有效性?3、如何將機(jī)器學(xué)習(xí)中的:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及增強(qiáng)學(xué)習(xí)進(jìn)行融合,使其成為一種單一的算法?4、如何有效的設(shè)計(jì)一種類似于人類的無監(jiān)督學(xué)習(xí)方法?
當(dāng)前對(duì)于問題1與2尚無較好的解釋及解決方法,對(duì)于問題3目前仍在探索階段(對(duì)波爾玆曼機(jī)及自動(dòng)編碼器是當(dāng)前該方向的研究熱點(diǎn)),關(guān)于問題4,尚處于探索階段,但已有一些初步成果,即GAN(生成對(duì)抗網(wǎng)絡(luò))。
安防領(lǐng)域深度學(xué)習(xí)應(yīng)用需要關(guān)注的問題
依賴于大數(shù)據(jù)應(yīng)用方面的突破,安防領(lǐng)域人工智能的應(yīng)用正呈現(xiàn)出燎原之勢(shì),當(dāng)前的發(fā)展水平下,人工智能融合到安防領(lǐng)域所要解決的主要問題是算法的計(jì)算性能問題,由于安防領(lǐng)域的大量產(chǎn)品都屬于前端產(chǎn)品,因此,深度學(xué)習(xí)需要運(yùn)行在ARM等芯片上,如何把GPU上運(yùn)行的算法移植到前端去運(yùn)行是目前急需解決的問題。
另外,針對(duì)現(xiàn)階段深度學(xué)習(xí)開發(fā)平臺(tái)尚未統(tǒng)一的問題,由于目前深度學(xué)習(xí)對(duì)樣本的數(shù)量及質(zhì)量具有較大的依賴性,因此需要建立起一個(gè)統(tǒng)一的管理樣本的平臺(tái),該平臺(tái)應(yīng)具有管理樣本的能力,包括:去除重復(fù)樣本,排除錯(cuò)誤樣本及自動(dòng)生成訓(xùn)練所需的隨機(jī)樣本的能力。
而在芯片和算法方面,目前各廠商采用的芯片及算法相似,由于在芯片上運(yùn)行的是根據(jù)實(shí)際應(yīng)用所設(shè)計(jì)的算法,因此不同公司產(chǎn)品的優(yōu)劣取決于其所提供算法的正確率及速度,在深度學(xué)習(xí)中這兩部分對(duì)樣本的質(zhì)量具有較強(qiáng)的依賴性,因此公司的核心競(jìng)爭(zhēng)力取決于對(duì)樣本的管理能力。