與第一代TPU只能服務于機器學習模型計算不同,谷歌最新的TPU現在既能處理訓練也能處理服務。InfoQ年初曾詳細介紹過第一代TPU白皮書。
第二代TPU的發布時間與一周前NVIDIA發布Volta的時間高度吻合,后者是一個普通的GPU,針對TensorFlow進行了優化,具備經過嚴格測試的Tensor Core特性。谷歌沒有像第一代TPU發布時那樣提供一份與第二代TPU配套的公共白皮書。第一代TPU的白皮書是在TPU發布幾個月之后才發布的。所以,可以推測,詳細介紹第二代TPU(TPU-2)基準測試數據的白皮書即將到來。理想情況下,其中會包含TPU和競爭對手芯片組配置的測試組合、它們的邊界性能以及在它們上面運行的機器學習工作負載類型。和第一代TPU白皮書類似,那會提供有關TPU-2的詳細信息。
谷歌提供了一些高級性能指標,據推測,這些指標是以谷歌通過GCP計算引擎提供TPU即服務時使用的TPU物理基礎設施配置為基礎。一組特定的研究人員和科學家將可以免費使用一個包含1000個云TPU的集群。該免費的TPU基礎設施和面向其他所有人的GCP服務可能有一個很大程度的抽象,硬件研究人員或新聞資訊可以在沒有白皮書的情況下有一個深入的了解。在性能提升方面,谷歌指出:
……我們的大規模新翻譯模型在32個全世界最好的商用GPU上訓練了一整天,而1/8個TPU Pod一下午就可以完成這項任務……
TPU-2 Pod包含由多個TPU-2處理器組成的TPU-2板。根據谷歌公告中的零星技術信息以及幾張照片,我們可以推測,每個芯片上的閃存可能存在連通性,單個的TPU-2之間可能共享閃存狀態。
第二代TPU基礎設施提供多達256個芯片,它們連接在一起可以提供11.5千兆次的機器學習運算能力。谷歌接受Alpha版本試用申請,不過,申請表單和研究人員的免費試用表單相同。目前,還不清楚下一代TPU是否會用在類似CloudML這樣在GPU上執行模型訓練的服務中。不過,該服務不只限于TPU。該GCP特性
讓用戶可以在競爭對手的芯片(如英特爾的Skylake)或GPU(如Nvidia的Volta)上構建自己的模型,然后將項目遷移到谷歌TPU云上做最后的處理。
對于TPU-2相對于第一代TPU的性能提升,現在還很難做出充分的比較,因為它們的特性集和底層數學操作原語不同。第一代TPU沒有使用浮點操作,而是使用一個8位的整數近似地表示浮點數。現在還不知道谷歌是否提供近似方法將浮點運算性能轉換成8位整數,用于定量分析的浮點運算估計。
谷歌最新的大規模翻譯模型在32個“最好的商業GPU”上需要訓練一整天,而1/8個TPU Pod一下午就可以完成這項工作……每塊板子的最大峰值吞吐量為每秒45萬億次浮點運算,如上所述,系統板每秒總計180萬億次浮點運算,峰值性能可達11500萬億次。
能夠訪問閃存以及可以在同樣的硬件上提供訓練和服務的能力會影響谷歌和其他芯片組生產商的競爭關系,因為AMD的Vega Radeon Instinct GPU加速器既可以直接訪問閃存,也可以提供ML訓練和服務。
查看英文原文:Second-Generation TPU Offers Both Training and Model Serving, Free Research Tier on GCP