IBM與EPFL的研究人員合作,創(chuàng)造了一種用于處理大型數(shù)據(jù)集以訓(xùn)練機(jī)器學(xué)習(xí)算法的新方法。這種被稱為Duality-gap based Heterogeneous Learning(DuHL)的新算法能夠每60秒推送30GB的數(shù)據(jù),比以前的方法提高了10倍。
通常,需要TB的內(nèi)存才能模擬某些機(jī)器學(xué)習(xí)模型。所需的服務(wù)器硬件相當(dāng)昂貴,甚至一旦建立操作,計算能力仍然是研究人員的一個問題。運(yùn)行一個測試幾天甚至幾個星期,使得研究人員難以按小時租用硬件進(jìn)行機(jī)器學(xué)習(xí)。
利用GPU進(jìn)行并行計算已經(jīng)有好多年了,但目前的顯卡還沒有達(dá)到IBM研究所需的太字節(jié)內(nèi)存需求。目前針對GPU,有不同節(jié)點(diǎn)分割計算需求的方法,但不是所有的任務(wù)都適合分配。對此,IBM現(xiàn)在允許其機(jī)器學(xué)習(xí)工具隨著算法的進(jìn)展而改變對單個數(shù)據(jù)片段的調(diào)用。簡而言之,過去的成就將貫穿整個驗(yàn)證階段,以便為系統(tǒng)提供反饋,使系統(tǒng)比以前更快地指向正確的方向。
在初步測試期間,IBM使用了配有8GB GDDR5內(nèi)存的NVIDIA Quadro M4000顯卡。在這種價格適中的專業(yè)圖形卡上IBM證明,與標(biāo)準(zhǔn)的順序操作方法相比,使用DuHL系統(tǒng)可以將支持向量機(jī)訓(xùn)練速度提高10倍以上。