△ TPU的印刷電路板
歡迎關注“創事記”的微信訂閱號:sinachuangshiji
文/李杉編譯整理 來源:量子位公眾號 QbitAI
自從Google去年透露自己開發了一款名為TPU的專用芯片,用于提高人工智能計算任務的執行效率,關于這種新芯片的猜測就從未停止。
今天,Google終于披露了關于TPU的更多信息。除了發表一篇有75位聯合作者的論文《In-Datacenter Performance Analysis of a Tensor Processing UnitTM》外,文章的第四作者David Patterson還在美國國家工程院的活動上發表了演講。
關于TPU的論文將正式發表于今年6月在多倫多召開的計算機體系結構國際研討會(International Symposium on Computer Architecture, ISCA),Google目前已經在Google Drive上將其公開。
該公司從2015年開始就一直在內部使用TPU,并在去年5月的Google I/O開發者大會上,對外公布了這種芯片的存在。
TPU是一種ASIC(專用集成電路),Google將其用在神經網絡的第二個步驟。使用神經網絡首先要用大量數據進行訓練,通常在使用GPU加速的服務器上進行。之后,該公司便會開始使用TPU加速新數據的推斷。谷歌表示,這比直接使用GPU或基本的x86芯片速度快很多。
他們在論文中寫道:“盡管某些應用的利用率較低,但TPU平均比GPU或CPU速度快15至30倍左右。”其中的GPU或CPU具體指的是英偉達的Tesla K80 GPU和英特爾的至強E5-2699 v3芯片,后者可以成為TPU的底層平臺。
過去5年,英偉達等公司的GPU已經成為經濟型深度學習系統的默認基礎架構,而谷歌也對此做出了貢獻。但谷歌和微軟等公司還在探索其他類型的人工智能芯片,包括FPGA(現場可編程門陣列器件)。谷歌的項目因為其來源和使用范圍而受到關注,該公司工程師Norm Jouppi在博客中寫道,這套系統已經應用于谷歌圖片搜索、Google Photos和谷歌云視覺應用API等服務。
該論文稱,一個TPU的片上內存容量達到Tesla K80的3.5倍,而且體積更小。每耗電1瓦的性能則高出30至80倍。谷歌目前可以將兩個TPU安裝到一臺服務器中,但這并不表示他們不會開發其他更強大或更經濟的硬件系統。
谷歌對人工智能網絡的重視高于很多科技公司,他們2013年就認定這項技術廣受歡迎,可以將其數據中心的計算需求擴大一倍。如果完全使用標準芯片,成本將十分高昂,難以承受。所以谷歌開始開發自己的技術,希望實現10倍于GPU的成本效益。
“我們沒有與CPU密切整合,為了減少延遲部署的幾率,TPU設計成了一個PCIe I/O總線上的協處理器,使之可以像GPU一樣插到現有的服務器上。”論文還寫道,“另外,為了簡化硬件設計和調試過程,主服務器發送指令讓TPU來執行,而不會自主執行。因此,與TPU更加接近的是FPU(浮點單元)協處理器,而非GPU。目標是在TPU運行完整的推理模型,降低與主CPU的互動,并使之足以靈活地滿足2015年及之后的神經網絡需求,而不僅僅適用于2013年的神經網絡。”
論文稱,通常而言,在TPU上運行代碼跟使用谷歌領導的TsensorFlow開源深度學習框架一樣簡單。
量子位提示:Google在論文中提到的測試結果,都是基于該公司自己的測試標準。
更多信息見Google公布的論文,地址:
https://drive.google.com/file/d/0Bx4hafXDDq2EMzRNcy1vSUxtcEk/view。