近期,谷歌(微博)正在開發專用機器學習芯片TPU。在人工智能硬件的軍備競賽中,這是谷歌的最新一步舉措。
TPU是英文“張量處理單元”的縮寫。TPU的設計可匹配谷歌的開源機器學習庫TensorFlow使用,從2015年開始就被用在谷歌的數據中心中。本月早些時候,谷歌首次公布了這種設備的性能數據。
谷歌表示,當前一代TPU的設計支持推理運算,即利用經過訓練的神經網絡去完成某些功能,例如通過谷歌Now識別語音命令。對于這些任務,谷歌表示,TPU的速度要比同一代GPU和CPU快15到30倍,而能效要高出30到80倍。
自60年代以來,CPU(中央處理器)是幾乎所有計算機的核心。然而,這種芯片并不適合當代機器學習算法,尤其是深度學習的計算要求。
到00年代末,研究人員發現,顯卡非常適合這類任務的并行計算要求。因此,GPU(圖形處理單元)成為了神經網絡設計時的事實標準。不過,隨著谷歌對機器學習技術的進一步開拓,該公司希望開發訂制的硬件產品,以滿足專門需求。
負責該項目的首席工程師諾姆·朱庇(Norm Jouppi)在博客中表示:“對TPU的需求從6年前出現,當時我們開始在產品中越來越多的地方使用對計算資源需求龐大的深度學習模型。使用這些模型帶來的計算開銷令我們擔憂。”
“考慮一種場景:如果用戶每天使用谷歌語音搜索3分鐘時間,我們使用基于當前處理單元的深度神經網絡來支撐語音識別系統,那么我們必須將谷歌數據中心的數量增加一倍!”
英偉達則認為,這樣的比較并不恰當。谷歌將TPU與服務器級別的英特爾Haswell CPU和英偉達K80 GPU進行了對比。然而自那時以來,英偉達GPU已經走過了兩代產品。英特爾沒有對此置評,但Haswell處理器早已是3代之前的產品。
英偉達在博客中表示:“英偉達Kepler GPU的架構源于2009年,幫助外界了解用GPU加速深度學習計算的可能性。然而,這款GPU并未針對這類任務進行優化。”
英偉達提供了最新的測試數據。該公司指出,最新的P40 GPU速度能達到TPU兩倍。不過重要的是,TPU的能耗仍好于英偉達的新款GPU,而谷歌很可能也已準備好用新一代的TPU去優化設計。
TPU并不會顛覆芯片市場。谷歌不計劃向競爭對手銷售TPU芯片,而TPU將完全專注于推理運算。在訓練過程中,谷歌仍大量使用英偉達GPU。因為,谷歌沒有對英偉達的說法進行反駁。
全球只有少數幾家公司有資源和意愿,從頭開始在一個全新的領域開發產品,而谷歌是其中之一。不過,谷歌也是全球最主要的處理器采購者之一。因此,如果谷歌認為只有自主設計才能滿足需求,那么將是一個引起芯片廠商警覺的信號。
確實,這正是谷歌的想法之一。NetworkWorld的史蒂夫·帕特森(Steve Patterson)表示:“谷歌發表這篇研究論文是為了引起機器學習圈子和芯片廠商的討論。目前是時候提供現成的解決方案,用于規模執行推理運算。”
分析師卡爾·弗倫德(Karl Freund)表示,距離這類產品的推出或許并不遙遠。“考慮到市場的快速發展,以及對更強大性能的渴望,我認為芯片廠商將不可避免地推出專用于機器學習的芯片。”
英偉達不太可能讓出當前的市場主導地位。今年晚些時候,英特爾將推出首款基于Nervana機器學習技術的芯片。去年8月,英特爾收購了Nervana。一些移動芯片公司也將試水這一市場。
ARM的Dynamiq微架構幫助客戶在芯片中直接集成人工智能加速器,從而將原生的機器學習功能引入智能手機等設備中。高通的Project Zeroth項目已經發布軟件開發工具包,可以在搭載驍龍處理器的智能手機和無人機等設備中運行深度學習程序。
谷歌發布TPU或許只是為了確保這些公司向著正確的方向發展。