精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

谷歌與CMU聯(lián)合發(fā)文:審視數(shù)據(jù)對(duì)深度學(xué)習(xí)的重要性

責(zé)任編輯:editor005

2017-07-17 15:05:50

摘自:數(shù)據(jù)派THU

自2012年以來,模型的性能和GPU的計(jì)算力都已取得非常大的進(jìn)步。眾所周知,目前的卷積神經(jīng)網(wǎng)絡(luò)革命是大型標(biāo)注數(shù)據(jù)集的產(chǎn)物(具體來說,來自ImageNet的大小為1M的標(biāo)記圖像)和大規(guī)模計(jì)算能力(得益于GPU

自2012年以來,模型的性能和GPU的計(jì)算力都已取得非常大的進(jìn)步。但最大數(shù)據(jù)集的大小卻出乎意料地保持現(xiàn)狀。那如果我們將數(shù)據(jù)集的大小擴(kuò)大10倍或是100倍會(huì)發(fā)生什么呢?

大數(shù)據(jù)深度學(xué)習(xí)23

  深度學(xué)習(xí)在視覺問題上所取得的成功可歸因于以下幾點(diǎn):

高容量模型;

高速增長(zhǎng)的計(jì)算力;

大規(guī)模標(biāo)記數(shù)據(jù)的可用性。

自2012年以來,模型的性能和GPU的計(jì)算力都已取得非常大的進(jìn)步。但最大數(shù)據(jù)集的大小卻出乎意料地保持現(xiàn)狀。那如果我們將數(shù)據(jù)集的大小擴(kuò)大10倍或是100倍會(huì)發(fā)生什么呢 本文在揭秘“超大規(guī)模數(shù)據(jù)”和深度學(xué)習(xí)之間那云里霧里的關(guān)系上取得了一大步進(jìn)展。我們利用JFT—300 M數(shù)據(jù)集,圖片超過3億張中已逾有3.75億個(gè)具有噪聲的標(biāo)簽。我們?cè)谘芯浚绻@個(gè)數(shù)據(jù)集用于表征學(xué)習(xí),那么當(dāng)前的視覺任務(wù)的性能將發(fā)生怎樣的變化。

我們的論文提供了一些預(yù)期之外的(和一些預(yù)期之內(nèi)的)發(fā)現(xiàn):

視覺任務(wù)的性能仍然以訓(xùn)練數(shù)據(jù)大小的數(shù)量級(jí)線性增加;

表征學(xué)習(xí)(或預(yù)訓(xùn)練)仍然有很大的用途。通過訓(xùn)練更好的基礎(chǔ)模型,便可以提高視覺任務(wù)的性能;

正如預(yù)期的那樣,我們?cè)诎▓D像分類、目標(biāo)檢測(cè)、語義分割和人體姿態(tài)評(píng)估等不同視覺任務(wù)上呈現(xiàn)出了新的基于目前技術(shù)水平的研究成果。

我們真誠(chéng)希望可以以此來激發(fā)那些機(jī)器視覺的相關(guān)社區(qū),不要低估數(shù)據(jù)的重要性,以及要發(fā)展集體努力從而建設(shè)更大的數(shù)據(jù)集。

眾所周知,目前的卷積神經(jīng)網(wǎng)絡(luò)革命是大型標(biāo)注數(shù)據(jù)集的產(chǎn)物(具體來說,來自ImageNet的大小為1M的標(biāo)記圖像)和大規(guī)模計(jì)算能力(得益于GPU)。每年我們都在進(jìn)一步增加計(jì)算能力(更新、更快的GPU),但是我們的數(shù)據(jù)集并沒有那么幸運(yùn)。ImageNet是一個(gè)基于1000個(gè)類別的1M標(biāo)記圖像的數(shù)據(jù)集,五年多以前用于訓(xùn)練AlexNet。

奇怪的是,雖然GPU和模型容量都在不斷增長(zhǎng),但是對(duì)這些模型進(jìn)行訓(xùn)練的數(shù)據(jù)庫(kù)仍然停滯不前。即使是具有明顯更多容量和深度的101層的ResNet,仍然使用來自ImageNet大約2011年的1M Image圖像進(jìn)行訓(xùn)練。為什么 在更深層次的模型和計(jì)算能力之前,我們?cè)俅钨H低了數(shù)據(jù)的重要性嗎 如果我們將訓(xùn)練數(shù)據(jù)的量增加10倍或100倍,性能會(huì)翻番么

大數(shù)據(jù)深度學(xué)習(xí)

視覺數(shù)據(jù)集的奇怪案例:盡管GPU計(jì)算能力和模型尺寸在過去五年中不斷增加,但是訓(xùn)練數(shù)據(jù)集的大小卻驚人地保持不變。這是為什么 如果我們使用我們的資源來增加數(shù)據(jù)集大小,會(huì)發(fā)生什么

本論文采取的第一步,是明晰“超大規(guī)模數(shù)據(jù)”與深度學(xué)習(xí)之間的神秘關(guān)系。當(dāng)然,重要的是,如何收集比ImageNet還大的數(shù)據(jù)集。為了測(cè)試當(dāng)前模型的極限和上限,我們可能需要一個(gè)幾乎比ImageNet大100倍的數(shù)據(jù)集。事實(shí)表明,收集1M圖像的1000個(gè)類別,每個(gè)問題將需要1000萬美元。ImageNet使用了幾種啟發(fā)式(例如標(biāo)簽層級(jí))來減少問題,從而將成本降低到10萬美元。但是,大于100倍的數(shù)據(jù)集仍然需要超過1000萬美元。

在本論文中,我們利用了一個(gè)已經(jīng)存在的JFT圖像數(shù)據(jù)集,該數(shù)據(jù)集由Geoffrey Hinton等科學(xué)家最早提出。JFT數(shù)據(jù)集擁有超過3億張圖像,標(biāo)有18291個(gè)類別。注釋是自動(dòng)獲得的,因此,這些注釋比較嘈雜,并不是詳盡無遺的。這些注釋已經(jīng)使用復(fù)雜的算法進(jìn)行清理,以提高標(biāo)簽的精度;然而,精度仍然有大約20%的誤差。我們將使用這些數(shù)據(jù)來研究數(shù)據(jù)量與視覺性能之間的關(guān)系。具體來說,我們將研究視覺表征學(xué)習(xí)(預(yù)訓(xùn)練)的數(shù)據(jù)的能力。我們?cè)u(píng)估各種視覺任務(wù)的學(xué)習(xí)性能:圖像分類、對(duì)象檢測(cè)、語義分割和人體姿態(tài)評(píng)估。我們的實(shí)驗(yàn)產(chǎn)生了一些令人驚訝(和一些預(yù)期)的發(fā)現(xiàn):

更好的表征學(xué)習(xí)真的有用!

我們的第一個(gè)觀察是,大規(guī)模數(shù)據(jù)有助于表征學(xué)習(xí),這是被我們研究的每個(gè)視覺任務(wù)的性能改善所證明的。

這表明,收集更大規(guī)模的數(shù)據(jù)集以研究預(yù)訓(xùn)練過程,可能會(huì)對(duì)該領(lǐng)域產(chǎn)生極大的好處。我們的研究結(jié)果還表明,無監(jiān)督或自監(jiān)督表征學(xué)習(xí)方法的光明前景。數(shù)據(jù)量似乎可以超越標(biāo)簽空間的噪音。

性能隨著訓(xùn)練數(shù)據(jù)的數(shù)量級(jí)線性增加!

也許我們發(fā)現(xiàn)的最令人驚奇的要素是,視覺任務(wù)的性能與用于表示學(xué)習(xí)的訓(xùn)練數(shù)據(jù)(對(duì)數(shù)量表)的數(shù)量之間的關(guān)系。我們發(fā)現(xiàn)這種關(guān)系還是線性的!即使是3億張訓(xùn)練圖像,我們對(duì)所研究的任務(wù)也沒有觀察到任何平臺(tái)效應(yīng)。

容量至關(guān)重要!

我們還觀察到,為了充分利用3億張圖像,需要更高容量的模型。例如,在ResNet-50的情況下,COCO對(duì)象檢測(cè)的增益(1.87%),比使用ResNet-152(3%)時(shí),要小得多。

長(zhǎng)尾訓(xùn)練:我們的數(shù)據(jù)有相當(dāng)長(zhǎng)的尾巴,表征學(xué)習(xí)似乎有效。這種長(zhǎng)尾似乎不會(huì)對(duì)卷積神經(jīng)網(wǎng)絡(luò)的隨機(jī)訓(xùn)練產(chǎn)生不利影響(訓(xùn)練仍然趨于收斂)。

最新技術(shù)成果:最后,我們的論文使用從JFT-300M獲得模型,在幾個(gè)基準(zhǔn)上提出了新成果。例如,一個(gè)單一的模型(沒有任何bell和whistle)AP(目標(biāo)檢測(cè)中衡量檢測(cè)精度的指標(biāo))達(dá)到 37.4,而COCO檢測(cè)基準(zhǔn)的AP為34.3。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 泌阳县| 卢龙县| 柳江县| 巴彦县| 丹阳市| 南汇区| 朝阳县| 南木林县| 满城县| 云梦县| 襄汾县| 淮滨县| 广水市| 松滋市| 通河县| 吉木萨尔县| 盘山县| 苗栗市| 邛崃市| 池州市| 红原县| 汝州市| 新源县| 黄梅县| 米林县| 龙井市| 保山市| 昌黎县| 岱山县| 金堂县| 德保县| 平武县| 九龙坡区| 同心县| 岐山县| 平潭县| 巫溪县| 宣城市| 姚安县| 红桥区| 郑州市|