谷歌似乎找到另一種解決這個問題的方法。所采用的方案不是像CPU和GPU這樣的通用芯片,也不是FPGA等可編程芯片,而是專用芯片,如專用加速器。
摩爾定律的放緩可能會產生重要影響,尤其是對英特爾來說。其在手機領域已經失手,PC銷量在不斷下滑,但是迄今為止,這些大部分已經從服務器領域獲得拯救,因為在該領域它還處于壟斷地位。
后者已經受到了來自英偉達的GPU的攻擊,這些GPU執行了一些任務,尤其是并行處理了與人工智能相關的大數據任務。
英偉達在數據中心行業的發展可圈可點,去年的增長率高達126%.
英特爾正在進行反擊。如今數據中心的芯片優先采用新的處理器平臺(節點),并且它已經收購了Altera,可以提供FPGA技術以加速云計算。賽靈思是這條路線的另一個玩家。
FPGA是摩爾定律放緩打擊通用CPU的一個手段,因為它是“現場可編程”,也就是可以在生產后根據用戶需求重新配置。
英特爾FPGA能夠用于加速大型數據系統的性能。英特爾FPGA通過提供定制化高帶寬、低延遲連接到網絡和存儲系統,實現高速數據處理。另外,英特爾FPGA提供壓縮、數據過濾和算法加速。通過帶有OpenCL的英特爾FPGA SDK,你可以為計算和存儲系統快速研發加速方案。帶有OpenCL的英特爾FPGA SDK能夠讓軟件開發者很容易通過FPGA進行設計,它允許工程師利用高級語言進行快速開發。
谷歌似乎找到另一種解決這個問題的方法。所采用的方案不是像CPU和GPU這樣的通用芯片,也不是FPGA等可編程芯片,而是專用芯片,如專用加速器。
Google正在做這件事,介紹(見文件)Tensor處理單元(TPU):
“谷歌的TPU在機器學習測試中超過英特爾的Xeon和英偉達的GPU一個數量級。TPU和基準測試表明,它的速度比商業芯片快了15倍,性能提升30倍。”
令人印象深刻的是,所使用的基準并不是最前沿的(本文認為,2015年的測試,英特爾已經提供了14納米CPU,而Nvidia擁有新的16納米GPU),因為測試是在2015年進行的,但是再一次,TPU本身也不是特別尖端的(在頻率和處理器節點方面):
“40-W TPU是運行在700 MHz的28 nm芯片,旨在加速Google的TensorFlow算法。 其主要邏輯單元包含65,536個8位乘法累加單元和24 MB緩存,提供每秒92個tera操作。”
把產品遷移到更小的節點上會提高性能,還有其它技巧:
“如果我們比較更新的芯片,顯示,我們可以通過使用K80的GDDR5內存將28nm、0.7GHZ、40W的TPU性能提升三倍。(成本增加10W)”
如果不這樣的話,隨著TPU的成熟,它的性能可能會超過競爭對手擴大自身優勢:
“該TPU的數量級性能優勢很少,這可能導致它會成為某些特定領域架構的原型。我預計很多會構建繼承者,它們的水平會提高很多。谷歌表示,關于短至15個月的設計周期表阻止了TPU中的許多節能功能。
TPU已經應用于谷歌的數據中心,但是公司沒有提供任何關于廣泛應用的信息,也沒有說升級方式以及是否會將TPU賣給第三方。“
這對英特爾有明顯的警告,對英偉達屬于小幅度的:
TPU項目從2013年隨著從FPGA實驗開始。“當我們看到FPGA的性能無法和GPU相比的時候,我們拋棄了它,并且運行速度加快TPU功耗會比GPU更低。”報告指出。
總結:
不久前,英特爾還沉迷于快速增長的服務器市場的壟斷地位。但是隨著摩爾定律的放緩,尤其是不管是存儲、簡單應用還是復雜AI開始向云端轉移,英特爾的GPU無法有效地做這些工作,并且尋找有效的解決方案。
早期的替代者是英偉達的GPU或者Altera和賽靈思的FPGA.它們對英特爾沒有造成威脅,因為服務器仍然在跑CPU,幾乎全部來自英特爾,但是即使這樣,一些來自AMD、IBM和ARM基礎設計的新興競爭出現了。
但是GPU和FPGA的處理能力越來越強,英特爾來自數據中心的增長收益開始變少。如今在復雜加速器似乎出現了一種新的模塊,如谷歌的TPU.這會造成多大的威脅?
對于初學者,你必須認識到就像GPU和FPGA一樣,TPU無法在服務器中取代CPU.它通過有效地執行一些任務就可以提供附加的處理能力。或者,有人會死或它可能會威脅到GPU和FPGA,但是似乎他們根據用戶的需求有各自的優勢。但是,像GPU和GPGA,TPU會從英特爾占主導地位的CPU轉移處理能力。
因此,對英特爾來說,最好的方案是它的使用仍然局限于谷歌云自身。目前還沒有跡象表明谷歌是否計劃將TPU給第三方。它可能應用TPU去加強自身的云應用的性能優勢,或者限制其對第三方供應商的依賴。但是高級芯片業務受益于巨大的經濟規模,所以我們認為谷歌不太可能將其作為專有解決方案。
更重要的是,谷歌似乎開啟了一扇數據中心全新解決方案之門,而且是在15個月內研發出來的。其它廠商跟了多久了?