過去十年中,雅虎在Apache Hadoop集群構建和擴展方面投入了很大的精力。目前,雅虎有19個Hadoop集群,其中包含4萬多臺服務器和超過600PB的存儲。他們在這些集群上開發(fā)了大規(guī)模機器學習算法,將Hadoop集群打造成了雅虎首選的大規(guī)模機器學習平臺。近日,雅虎Big ML團隊的Cyprien Noel、Jun Shi和Andy Feng撰文 介紹了雅虎在Hadoop集群上構建大規(guī)模分布式深度學習的實踐 。
深度學習(DL)是雅虎的許多產品都需要的功能。比如, Flickr 的場景檢測、對象識別、計算審美等功能均依賴于深度學習。為了使更多產品從機器學習中受益,他們最近將DL功能引入到了Hadoop集群本地。在Hadoop上進行深度學習主要有以下好處:
深度學習直接在Hadoop集群上執(zhí)行,可以避免數據在Hadoop集群和單獨的深度學習集群之間移動;
同Hadoop數據處理和Spark機器學習管道一樣,深度學習也可以定義為 Apache Oozie 工作流中的一個步驟;
YARN 可以與深度學習很好地協(xié)同,深度學習的多個實驗可以在單個集群上同時進行。與傳統(tǒng)方法相比,這使得深度學習極其高效。
DL on Hadoop是一種新型的深度學習方法。為了實現這種方法,雅虎主要做了如下兩個方面的工作:
增強Hadoop集群: 他們向Hadoop集群添加了GPU節(jié)點。每個節(jié)點有4個 Nvidia Tesla K80 卡,每個卡有2個GK 210 GPU。這些節(jié)點的處理能力是傳統(tǒng)商用CPU節(jié)點的10倍。GPU節(jié)點有兩個獨立的網絡接口Ethernet和Infiniband。前者作為外部通信接口,后者速度要快10倍,用于連接集群中的GPU節(jié)點以及為通過RDMA直接訪問GPU內存提供支持。借助YARN最新推出的 節(jié)點標記功能 ,可以在作業(yè)中指定容器是在CPU上運行還是在GPU上運行。
創(chuàng)建Caffe-on-Spark :這是他們基于開源軟件庫 Apache Spark 和 Caffe 創(chuàng)建的一個分布式綜合解決方案。借助它,通過幾條簡單的命令就可以將深度學習作業(yè)提交到GPU節(jié)點集群,并且可以指定需要啟動的Spark executor進程數量、分配給每個executor的GPU數量、訓練數據在HDFS上的存儲位置以及模型的存儲路徑。用戶可以使用標準的Caffe配置文件指定Caffe solver和深層網絡拓撲。Spark on YARN會啟動指定數量的executor,每個executor會分得一個HDFS訓練數據分區(qū),并啟動多個基于Caffe的訓練線程。
上述工作完成后,他們在兩個數據集上對該方法進行了基準測試。在 ImageNet 2012數據集 上的測試顯示,與使用一個GPU相比,使用4個GPU僅需要35%的時間就可以達到50%的準確度。而在 GoogLeNet 數據集上的測試表明,8個GPU達到60% top-5準確度的速度是1個GPU的6.8倍。
這說明他們的方法是有效的。為了使Hadoop集群上的分布式深度學習更加高效,他們計劃繼續(xù)在Hadoop、Spark和Caffe上的投入。
雅虎已經將部分代碼發(fā)布在 GitHub 上,感興趣的讀者可以進一步了解