CVPR作為行業(yè)最頂級的研究型會議,每年收錄的論文均來自計算機視覺領域頂級團隊,代表著國際最前沿的科研技術(shù),并指引著計算機視覺領域未來的研究方向。今年收錄的論文,主要涵蓋深度學習優(yōu)化原理、視覺對抗學習、人臉建模與識別、視頻深度理解、行人重識別、人臉檢測等熱門及前沿技術(shù)領域。
金山云金睛算法團隊與合作高校聯(lián)名發(fā)表的三篇論文,對神經(jīng)網(wǎng)絡訓練中的監(jiān)督方式進行了深入的探討,涵蓋教師-學生模型監(jiān)督方式、自監(jiān)督學習、大規(guī)模X光機彩色圖片的弱監(jiān)督學習開發(fā)三個方面。此次論文被CVPR收錄,代表著金山云金睛在神經(jīng)網(wǎng)絡監(jiān)督學習領域已達到國際一流水平。
“金睛”基于金山云強大的云計算基礎資源能力和海量數(shù)據(jù)積累,專注于圖像識別、語音識別、多模態(tài)視頻分析、文本識別、人臉識別、行人車輛識別等人工智能領域的研究,提供跨行業(yè)、多場景的AI解決方案。目前,金山云金睛算法團隊已經(jīng)與中山大學數(shù)據(jù)科學與計算機學院、中科院自動化所模式識別實驗室、中科院計算機所智能信息處理重點實驗室等多個全球頂級人工智能實驗室建立了長期的戰(zhàn)略合作關(guān)系。“金睛”穩(wěn)定的高精尖研發(fā)團隊、豐富的產(chǎn)品運營經(jīng)驗為金山云AI服務提供了充足的技術(shù)保證和發(fā)展動能。
附:金山云金睛入選CVPR2019的論文節(jié)選:
“Snapshot Distillation: Teacher-Student Optimization in One Generation”
《快照蒸餾:單模型訓練下完成教師-學生優(yōu)化》
本文介紹了第一種能夠在訓練單個模型的條件下完成教師-學生優(yōu)化的方法——快照蒸餾(Snapshot Distillation)。該方法的核心環(huán)節(jié)十分直觀:在單個模型的訓練過程中,我們從早期樣本遍歷后的模型 (教師模型) 提取有用信息對后期遍歷中的模型 (學生模型) 進行監(jiān)督訓練。與此同時,該方法保證教師和學生模型的神經(jīng)網(wǎng)絡差異性,來防止欠擬合問題的發(fā)生。在實現(xiàn)快照蒸餾算法時,我們采用余弦函數(shù)學習率,將整個訓練過程分為若干周期,在每一周期結(jié)束時提取模型快照(snapshot),并在新的周期迭代中用其提供監(jiān)督信息。模型快照作為教師模型,其輸出信息被模糊化處理以提供有益監(jiān)督。在基本的圖像分類數(shù)據(jù)集上,例如CIFAR100和ILSVRC2012,快照蒸餾在不引入過多的計算消耗情況下,實現(xiàn)了持續(xù)的性能提升。此外,我們通過Pascal VOC上的轉(zhuǎn)換實驗,驗證了經(jīng)過快照蒸餾預訓練的模型,同樣可以提高其在對象檢測和語義分割任務中的性能。
“Iterative Reorganization with Weak Spatial Constraints: Solving Arbitrary Jigsaw Puzzles for Unsupervised Representation Learning”
《基于求解任意拼圖問題的自監(jiān)督學習方法》
本文提出一種適用于任意網(wǎng)格尺寸與維度的“拼圖”問題的新方法,同時提出了一個基本且具有普遍意義的原則,即在無監(jiān)督場景中較弱的信息更容易被學習,且具有更好的可遷移性。對于“拼圖”問題,本文以迭代的方式逐步調(diào)整圖像塊的順序直到收斂,而不試圖一步解決。每一步都通過組合圖像塊中抽取的一元和二元特征,得到表示當前布局正確性的代價函數(shù)。通過考慮布局之間的聯(lián)系,本文方法以更合理的方式學習視覺信息。其有效性可從兩方面得到驗證。首先,它能夠解決現(xiàn)有方法難以處理的任意網(wǎng)格尺寸與維度的“拼圖”問題,包括高維“拼圖”問題。第二,它提供一種可靠的網(wǎng)絡初始化方法,幫助圖像分類、目標檢測和語義分割等視覺識別任務取得更好的性能。
“SIXray: A Large-scale Security Inspection X-ray Benchmark for Prohibited Item Discovery in Overlapping Images ”
《SIXray : 大規(guī)模X光違禁品安檢數(shù)據(jù)集》
本文針對X光安檢數(shù)據(jù)集,提出了類別均衡的分層細化模型處理數(shù)據(jù)集存在的問題。該模型假設每個輸入圖片都是從混合分布中采樣得到的,而深層網(wǎng)絡需要一個迭代過程來精確地推斷圖像內(nèi)容。我們將反向連接插入到不同的網(wǎng)絡骨干中,用高層的視覺線索輔助中間層的特征學習。除此之外,針對數(shù)據(jù)集正反例樣本不均衡的特點,設計了一個類平衡損失函數(shù),最大限度地減少了簡單負樣本產(chǎn)生的噪聲。