相較于只能使用在深度學習推論(inferencing)的第一代Tensor Processing Unit (TPU)芯片,Google第二代人工智能(AI)芯片Cloud TPU不僅處理速度更快,還多了訓練算法的能力,因此可望對NVIDIA繪圖處理器(GPU)芯片在AI市場的主導地位造成更大的威脅。
富比士(Forbes)報導指出,深度學習是一種利用大量資料對算法進行訓練的AI技術,并已普遍應用在影像與語音辨識功能上。在TPU問世以前,算法的訓練多是交由NVIDIA的GPU負責處理。GPU原本是專為電動游戲等專業圖形處理任務所設計,但其能將訓練深度學習網絡所需時間,從幾個星期縮短至幾天,因此深受AI開發人員青睞。
不過由4塊芯片組成最新的Cloud TPU,每秒浮點運算量號稱可達180tera FLOPS,比起NVIDIA最新一代GPU Tesla V100的120tera FLOPS高出不少。此外,Google也正嘗試將多個TPU集成為單一的TPU Pod系統。TPU Pod與NVIDIA的NVLink技術概念相似,并可望達到每秒11.5petaFLOPS的運算能力。
對Google而言,GPU訓練深度學習模型所需時間還是太長。像是Google翻譯應用如果使用市面上最新的32片GPU芯片進行訓練,仍需要一整天的時間才能完成訓練,但如果換成TPU Pod,只需要8分之1的運算能力,就可在6個小時內完成訓練。
Google資深科學家Jeff Dean表示,第二代TPU提供了更強大的運算能力,而Google將能藉此打造規模更大、更準確的機器學習模型。
第二代TPU芯片除了將運用在Google的內部服務外,也將透過Google Cloud開放給外部開發人員,而Cloud TPU的租用方式與費用將與目前GPU的租用規則相似。Google更計劃推出TensorFlow Research Cloud,并免費發送1,000份TPU芯片供開放AI研究使用。
盡管Google的云端業務起步較亞馬遜(Amazon)及微軟(Microsoft)晚了一些,但第二代TPU的加入將可給予Google更多競爭優勢。
不過也有不少人對Google的芯片事業發展持較保留的看法。分析師Patrick Moorhead便認為,有監于機器學習框架隨時都在改變,且其深度與復雜程度都不是單靠TPU就能應付,Google未來仍將不能完全擺脫對GPU的依賴。
另一方面,由于TPU是專為Google的TensorFlow框架所設計,因此外部開發人員如果要將TPU所開發的AI應用移植至Google外的平臺,可能會面臨一定的風險,而這也表示Google將更有機會把這些應用鎖定在自家的云端平臺。