當前位置：大數據 → 業界動態 → 正文

谷歌要構建10 億+ 級別的超大數據集，這樣能取代機器學習算法嗎？

責任編輯：editor006 作者：新智元 |來源：企業網D1Net 2017-07-12 15:45:22 本文摘自：36kr

編者按：本文由微信公眾號“新智元”（ID：AI_era）編譯，來源：research.googleblog.com；reddit，編譯：文強；胡祥杰；劉小芹；36氪經授權發布。

數據重要還是算法重要？一篇新的論文或許給出了答案。使用一個 300 倍于 ImageNet 的新數據集，谷歌研究人員發現，隨著數據增長，模型完成計算機視覺任務的性能直線上升。即使在 300 倍 ImageNet 這么大規模的情況下，性能都沒有遭遇平臺。谷歌研究人員表示，構建超大規模的數據集應當成為未來研究的重點，他們的目標是朝 10 億+ 級別的數據進發。

今年 3 月，谷歌大腦負責人 Jeff Dean 在 UCSB 做了一場題為《通過大規模深度學習構建智能系統》的演講。

谷歌要構建10 億+ 級別的超大數據集，這樣能取代機器學習算法嗎？ Jeff Dean 在演講中提到，當前的做法是：

解決方案 = 機器學習（算法）+ 數據 + 計算力

未來有沒有可能變為：

解決方案 = 數據 + 100 倍的計算力？

由此可見，谷歌似乎認為，機器學習算法能被超強的計算力取代。

現在，谷歌和 CMU 合作的一篇最新論文，又從數據的角度探討了這個問題。

過去十年中，計算機視覺領域取得了顯著的成功，其中大部分可以直接歸因于深度學習模型的應用。此外，自 2012 年以來，這些系統的表征能力也因下面 3 個因素取得了大幅進步：

（a）具有高復雜性的更深的模型

（b）增加的計算能力和

（c）大規模標簽數據集的可用性

然而，盡管每年計算能力和模型復雜性都在進一步增加（從 7 層的 AlexNet 到 101 層的 ResNet），可用的數據集卻沒有相應的擴大。與 AlexNet 相比，101 層的 ResNet 的容量也大大增加，可后者訓練時仍然使用的是大約 2011 年建立的 ImageNet——一個百萬級的圖像數據集。

谷歌要構建10 億+ 級別的超大數據集，這樣能取代機器學習算法嗎？雖然計算力（GPU）和模型大小不斷增長，數據集的規模一直停步不前

于是，谷歌的研究人員便想：如果將訓練數據的量增加 10 倍，精度是否會翻倍？增加 100 倍甚至 1000 倍呢？準確性會上升到某一水平就不再提高，還是會隨著數據的增加越來越高？

谷歌 JFT-300M：構建比 ImageNet 大 300 倍的數據集

在最新上傳到 arXiv 的論文《再探深度學習時代數據的超凡有效性》（Revisiting Unreasonable Effectiveness of Data in Deep Learning Era）中，谷歌研究人員朝著解答大數據與深度學習間的疑問邁出了第一步。作者表示，他們的目標是探索：

（a）向現有的算法饋送越來越多帶有噪聲標簽的圖像，是否能改善視覺表征；

（b）了解在分類、物體檢測和圖像分割等標準視覺任務中，數據和性能之間關系的性質；

（c）使用大規模學習的計算機視覺任務中當前最先進的模型的表現。

不過，要做到這一點，最大的問題是：在哪里能找到比 ImageNet 大 300 倍的數據集？

答案——不出意外——當然是“在谷歌”。

在今天發表于 Google Research 的文章里，谷歌機器感知組成員 Abhinav Gupta 介紹，為了改善計算機視覺算法，谷歌一直在開發建立這樣的數據集。現在，他們已經建立了一個名叫“JFT-300M”的內部數據集，含有 18291 個類別。顧名思義，JFT-300M 有 300M 圖像，是 ImageNet 的 300 倍。

這 300M 圖像有 10 多億個標簽（單個圖像可以有多個標簽）。標記這些圖像的算法結合了原始 Web 信號，網頁間的連接和用戶的反饋。在此基礎上，谷歌研究人員還使用了一個算法，在這些 10 億圖像標簽中，挑選出了大約 375M 精度最大的標簽。

但是，經過這樣的操作后，標簽上仍有相當大的噪音：所選圖像 20％左右的標簽是噪音標簽。Abhinav Gupta 表示，由于沒有詳盡的注釋，他們無法估計實驗中標簽的召回率。

模型性能隨訓練數據量呈線性增長

最后，實驗結果驗證了一些假設，但同時也產生了一些驚喜：

首先，更好的表征學習有助于提升性能。研究人員的第一個觀察是，大規模數據有助于進行表征學習，從而提高實驗中每個視覺任務的表現。研究結果表明，共同構建一個大規模的預訓練數據集十分重要。這也表明，無監督和半監督表征學習方法的前景光明。

此外，從實驗結果看，數據的規模會在一定程度上抵消標簽空間中的噪音。

其次，性能隨訓練數據的數量級呈線性增長。谷歌研究人員表示，也許最令他們驚訝的發現是，模型性能與用于表征學習的訓練數據數量（log-scale）間的關系呈線性！即使在 300M 的規模，也沒有觀察到什么平臺。

谷歌要構建10 億+ 級別的超大數據集，這樣能取代機器學習算法嗎？在 JFT-300M 不同子集上的預訓練后，進行物體檢測的性能。x 軸表示對數刻度的數據集大小，y 軸是 COCO-minival 子集中 mAP@[0.5，0.95]中的檢測性能。

容量至關重要。為了充分利用 300M 的圖像，需要更高容量（更深）的模型。例如，COCO 對象檢測基準的增益，使用 ResNet-50（1.87％）相比 ResNet-152（3％）要小得多。

此外，使用 JFT-300M 的新數據集，谷歌研究人員在好幾個基準上都取得了當前最佳結果。例如，單一模型 COCO 檢測基準從 34.3 AP 提升為 37.4 AP。

谷歌的目標：10億+ 規模數據集

Gupta 補充強調說，由于沒有搜索最佳的超參數集合（因為需要相當大的計算量），所以本次實驗得出的結果很可能還不是最佳。也就是說，這次他們的實驗可能還沒有完全將數據對性能的影響表現出來。

由此，Gupta 指出，雖然難度很大，但獲取針對某一任務的大規模數據應當成為未來研究的重點。

在模型越來越復雜的現在，谷歌的目標是——朝著 10 億+ 的數據集前進。

Reddit 評論：不需要那么大的數據集，需要更高效的算法模型

Reddit 上網友對谷歌這篇新論文有很多討論。新智元摘選其中有代表的觀點。其中，獲得點贊數最多的評論來自網友 gwern：

“性能提升的表格看起來很棒。他們也提到，斜線很可能比看起來的更陡（改進的程度可能比看起來的高），因為他們既沒有訓練多個模型來進行收斂，也沒有進行超參數搜索。聽到“數據的非理性效應”依然有效，這很好。

“但是，另一方面，在回答問題的方法上。這一研究使用了50 顆 K80 GPU（計算等于8.3 GPU年），但是他們還不能訓練一個101層的Resnet模型，來實現收斂或者是回答計劃的問題，更不用說進行超參數搜索或使用1000層的Resnet或者Densenet或者Attention以及其他的你用最新的CNN能夠完成的事，來進行實驗。

“如果一個谷歌聯合CMU的團隊，再加上如此強大的計算資源，都不能利用好300M的圖像，那其他人為什么會需要這一數據集，或者其他類似的東西。確實，GPU和模型大小已經在增長，但是，最開始的ImageNet都需要好幾天的訓練才能完成，所以，在300M的的數據集變得可行前，你需要擁有許多英偉達的產品。

“所以，答案是：一般的數據用于圖像處理任務已經足夠，所以，更大型的，類似ImageNet的數據集其實是不需要的，因為沒有人可以用這些數據集產生有意義的結果。實際上，人們需要的是一個現有計算能力更能支撐的、聯網效果更好的、更加高效的模型、更高質量的綜合數據集（例如，清洗過的標簽、更濃密的注釋等），或者更加專業化的數據。”

此外，網友 bbateman2011 回復：

“我的觀點是，巨頭公司們可以利用的資源是我們大多數人永遠得不到的。因此，機器學習的大部分工作中，并沒有足夠的資源來使用超巨量的數據。因此，重要的是少量數據的邊際改進，即，假如有一個學習曲線，對于給定類別的數據和算法，它可以怎樣改進。這是有價值的。老實說，我沒有仔細閱讀論文，不清楚它具體做了什么。但是，在改進中達到一個 noise floor 之后，再使用更多的數據會更好。”

論文：再探深度學習時代數據的超凡有效性

谷歌要構建10 億+ 級別的超大數據集，這樣能取代機器學習算法嗎？摘要

深度學習在視覺上的成功要歸功于：（a）高容量的模型；（b）越來越強的計算能力；（c）可用的大規模標簽數據。從2012年開始，業界在實現模型能力和GPU的計算能力上獲得了顯著的進步。但是，令人震驚的是，最大的數據集的規模卻一直沒發生多大的變化。如果我們將數據集的大小增加10倍或100倍，會發生什么？本研究在掃清圍繞“海量數據”和深度學習之間的關系的烏云邁進了一步。

JFT-300M數據集包含了對3億張圖片的3.75億個標簽，通過對這一數據集進行研究，我們調查了，如果這些數據被用于表征學習的話，當下的視覺任務表現會迎來哪些改變。研究發現了幾個意外（也有期待之中）的結果：第一，根據訓練數據規模的數量級增長，視覺任務的表現依然會有線性的增長；第二，研究也證明，表征學習（或者預訓練）仍然還有很大的潛力。任何一個人都能僅僅通過訓練一個更好的基礎模型改進任何視覺任務的表現。我們用這一大型數據集得到了提不同視覺任務的新的最新技術結果，包括圖像分類，對象檢測，語義分割和人體姿態估計。

我們真誠的希望，這將激發視覺界不要低估數據的價值，并形成共同的努力來構建更大的數據集。

編者按：本文由微信公眾號“新智元”（ID：AI_era）編譯，來源：research.googleblog.com；reddit，編譯：文強；胡祥杰；劉小芹；36氪經授權發布。

今年 3 月，谷歌大腦負責人 Jeff Dean 在 UCSB 做了一場題為《通過大規模深度學習構建智能系統》的演講。

Jeff Dean 在演講中提到，當前的做法是：

解決方案 = 機器學習（算法）+ 數據 + 計算力

未來有沒有可能變為：

解決方案 = 數據 + 100 倍的計算力？

由此可見，谷歌似乎認為，機器學習算法能被超強的計算力取代。

現在，谷歌和 CMU 合作的一篇最新論文，又從數據的角度探討了這個問題。

（a）具有高復雜性的更深的模型

（b）增加的計算能力和

（c）大規模標簽數據集的可用性

雖然計算力（GPU）和模型大小不斷增長，數據集的規模一直停步不前

谷歌 JFT-300M：構建比 ImageNet 大 300 倍的數據集

（a）向現有的算法饋送越來越多帶有噪聲標簽的圖像，是否能改善視覺表征；

（b）了解在分類、物體檢測和圖像分割等標準視覺任務中，數據和性能之間關系的性質；

（c）使用大規模學習的計算機視覺任務中當前最先進的模型的表現。

不過，要做到這一點，最大的問題是：在哪里能找到比 ImageNet 大 300 倍的數據集？

答案——不出意外——當然是“在谷歌”。

模型性能隨訓練數據量呈線性增長

最后，實驗結果驗證了一些假設，但同時也產生了一些驚喜：

此外，從實驗結果看，數據的規模會在一定程度上抵消標簽空間中的噪音。

在 JFT-300M 不同子集上的預訓練后，進行物體檢測的性能。x 軸表示對數刻度的數據集大小，y 軸是 COCO-minival 子集中 mAP@[0.5，0.95]中的檢測性能。

此外，使用 JFT-300M 的新數據集，谷歌研究人員在好幾個基準上都取得了當前最佳結果。例如，單一模型 COCO 檢測基準從 34.3 AP 提升為 37.4 AP。

谷歌的目標：10億+ 規模數據集

由此，Gupta 指出，雖然難度很大，但獲取針對某一任務的大規模數據應當成為未來研究的重點。

在模型越來越復雜的現在，谷歌的目標是——朝著 10 億+ 的數據集前進。

Reddit 評論：不需要那么大的數據集，需要更高效的算法模型

Reddit 上網友對谷歌這篇新論文有很多討論。新智元摘選其中有代表的觀點。其中，獲得點贊數最多的評論來自網友gwern：

此外，網友bbateman2011回復：

論文：再探深度學習時代數據的超凡有效性

摘要

我們真誠的希望，這將激發視覺界不要低估數據的價值，并形成共同的努力來構建更大的數據集。

關鍵字：谷歌數據集算法模型

熱文

高端訪談更多

CIO：全數字化時代，你做好轉型準備了嗎？

國藥國際CIO馮偉：數字化轉型要打破信息化建系統的固有思維

熱點專題更多

飛利浦商用顯示器:智能科技助力高效工作

企業出海

電子周刊

掃一掃
分享本文到朋友圈

當前位置：大數據 → 業界動態 → 正文

谷歌要構建10 億+ 級別的超大數據集，這樣能取代機器學習算法嗎？

責任編輯：editor006 作者：新智元 |來源：企業網D1Net 2017-07-12 15:45:22 本文摘自：36kr

編者按：本文由微信公眾號“新智元”（ID：AI_era）編譯，來源：research.googleblog.com；reddit，編譯：文強；胡祥杰；劉小芹；36氪經授權發布。

今年 3 月，谷歌大腦負責人 Jeff Dean 在 UCSB 做了一場題為《通過大規模深度學習構建智能系統》的演講。

Jeff Dean 在演講中提到，當前的做法是：

解決方案 = 機器學習（算法）+ 數據 + 計算力

未來有沒有可能變為：

解決方案 = 數據 + 100 倍的計算力？

由此可見，谷歌似乎認為，機器學習算法能被超強的計算力取代。

現在，谷歌和 CMU 合作的一篇最新論文，又從數據的角度探討了這個問題。

（a）具有高復雜性的更深的模型

（b）增加的計算能力和

（c）大規模標簽數據集的可用性

雖然計算力（GPU）和模型大小不斷增長，數據集的規模一直停步不前