除了GPU之外,AMD還公布了下一代使用7nm工藝的Zen 2處理器EPYC,該處理器目前已經完成流片正處于實驗室測試中,預計將于2018年下半年進入工程樣品階段并于2019年進入大規模出貨階段。
隨著桌面PC市場被移動設備日漸蠶食,在本世紀初熱鬧非凡的Computex會議已經幾乎被人遺忘。而AMD此次在Computex會議上舉行的高規格產品發布無疑是為之前有些疲軟的計算機市場和Computex會議帶來了一陣新風。這也釋放了一個重要信號:以數據中心為主要應用場景的高性能計算市場正在接過PC的接力棒,將會成為計算機在下一個十年發展的主要動力。
數據中心的想象空間
隨著大數據和深度學習的高速發展,數據正在成為新時代的原油而算力正在成為下一代的基礎設施。AMD在發布會上指出,到2025年的數據將會增長50倍:可穿戴設備、IoT、5G設備正在普及,這些設備都會產生大量的數據。除此之外,我們對于這些數據的處理方式也越來越復雜,機器學習領域的新算法層出不窮,能夠從數據中提取更多有用信息,從而在智慧城市、醫療、金融、安保等領域引入革命性的變化。隨著數據量和算法復雜度的飛速提升,對于算力的需求也在高速增長。
大數據算力的主要基礎設施在于數據中心。數據中心對于處理器的需求目前主要包括CPU和GPU。CPU是傳統計算硬件,可以支持通用計算,也是數據中心必不可少的一部分。AMD此次公布的EPYC CPU每個socket至多可以支持32個核。除了核心數多之外,CPU的內存存取和CPU間通信在需要高效執行分布式計算的數據中心也是重要要素,而EPYC每個CPU能支持至多8個內存通道和128條PCIe通道,可謂性能強大。眾所周知,AMD在數據中心CPU領域并非傳統強項,在Intel牢牢把持著市場的情況下AMD如何打入數據中心CPU生態也就成了大家關注的要點之一。在本次發布會上,AMD宣布了EPYC已經進入了CISCO,HP和騰訊云等重要客戶的產品中。雖然比起Intel在數據中心的市場份額來說AMD還有很大的差距,但是這也是個不錯的出發點。
除了CPU之外,GPU是數據中心想象空間更大的部分。在大數據時代,CPU并不能高效支持所有運算:在CPU的芯片上,為了滿足通用算法的支持,有很大一部分芯片面積都用來做緩存和控制邏輯(如分支判斷等),而用于計算單元的面積并不大。而在大數據算法中,大量數據是可以并行處理的(例如來自不同設備產生的獨立數據就可以并行處理而不會互相影響),因此大數據算法往往比較規整,而CPU芯片上的許多控制邏輯對于大數據算法就顯得多余。這時候擅長并行計算處理的GPU就脫穎而出。GPU的設計中控制邏輯比較簡單,而絕大部分芯片面積都用來做計算單元,因此一個GPU往往包含了數千個計算核心,可以提供超高效并行計算,對于合適的大數據算法GPU的執行速度比同代CPU要快兩到三個數量級。
GPU在數據中心中執行大數據算法的標志性事件是2012年的深度學習算法AlexNet的訓練。AlexNet是深度學習的標志性算法,其貢獻第一是證明在數據量足夠的情況下深度神經網絡在圖像分類等任務中的性能遠好于傳統的支持向量機(SVM)等算法,可謂是開啟了這一波深度學習熱潮;除此之外AlexNet還提出了使用GPU去訓練深度學習網絡,相比CPU可以將訓練時間降低兩到三個數量級從而進入合理的范圍(時間從數年下降到了幾天)??梢哉f以深度學習離不開GPU的支持,而隨著深度學習的繼續普及,數據中心對于GPU的需求也在持續上升。
深度學習的普及是GPU在數據中心需求量持續上升的一個要素。除此之外,深度學習以外的其他需要GPU的算法也在推動GPU需求。眾所周知的是區塊鏈算法對于GPU也有很大的需求量,在區塊鏈和加密貨幣最火的2017年各大礦場對于GPU的需求甚至讓GPU賣到斷貨(AMD從中也是獲利頗豐),之后雖然加密貨幣逐漸回歸理性但是對于GPU的需求卻在穩步上升。除了區塊鏈之外,數據庫等傳統應用也在逐漸擁抱GPU加速。可以說目前數據中心對于GPU的需求是以深度學習為首,而在其他領域也在逐漸跟上。Nvidia目前在數據中心GPU市場幾乎是處于壟斷地位,與之相應數據中心業務在Nvidia的財報中也越來越重要,2017財年的數據中心業務增長高達245%,在2018財年的增長也有233%,收入接近20億美元。AMD當然不會對數據中心這塊市場坐視不管,這次搶先Nvidia發布7nm VEGA GPU以及Radeon Instinct數據中心加速卡也是對Nvidia一個強烈的挑戰信號。
除了硬件之外,開發生態同樣重要
在數據中心市場,事實上BAT等各大客戶也希望AMD能打破Nvidia的壟斷地位,從而讓高性能GPU的價格能回歸合理的范圍。AMD這次發布的7nm VEGA GPU以及Radeon Instinct加速卡可謂性能強大,Radeon Instinct加速卡使用了32GB HBM高速顯存,并且VEGA GPU對于人工智能和機器學習也加入了硬件支持,具體性能值得期待。
在硬件性能之外,開發者生態也是決定性因素。Nvidia的戰略眼光極其深遠,在絕大部分人對于GPU的認識還局限于游戲圖形加速的時候,Nvidia就已經看到了GPU在其他領域的潛力,于是開始了GPGPU(通用GPU)戰略并開始了CUDA的開發。在經過數年的開發積累之后,又遇到了深度學習的大熱,Nvidia的CUDA憑借著穩定的性能,易用的API接口,完整的文檔和多年的開發者社區運營成為了相關開發者的首選,配合其GPU因此成為了數據中心的標配。另一方面,AMD對于GPGPU類的技術投入之前一直處于不溫不火的狀態,和高通等其他幾個合作廠商在推廣與CUDA相似的OpenCL但是其性能和易用性一直被開發者社區詬病。除此之外AMD在GPGPU領域的另一個舉措是推出異構系統架構HSA(heterogeneous system architecture),HSA的初衷是打通CPU和GPU的內存空間,用于解決CPU和GPU之間內存互訪造成的性能損失,然而至今HSA也只能說是普普通通并未引起太多波瀾。
AMD當然也認識到了其開發生態不足造成的問題,因此在這次發布會上也特意提到了其GPGPU的最新舉措即Radeon Open Ecosystem,可以支持TensorFlow,PyTorch,Caffe,MxNet等主流機器學習平臺并將提供優化的庫支持。然而,在開發生態領域AMD仍然是處于追趕地位,尤其是在Nvidia在數據中心的生態已經開始在探索GPU數據庫等藍海的情況下,AMD如何迎頭趕上值得我們關注。
7nm提升有限,封裝技術同樣重要
從芯片角度,這次AMD的發布也讓我們看到了半導體制程發展的趨勢。
AMD發布了7nm VEGA GPU的數據。耐人尋味的是,其性能相對于上一代14nm的VEGA僅僅提升了35%。在特征尺寸縮小一半加上設計也有改善的情況下,其性能的提升幅度并不大:7nm半導體工藝節點中雖然特征尺寸縮小晶體管開關速度會加快但是金屬互聯線帶來的延遲也變大,因此對于芯片性能的幫助有限。另一方面,其晶體管密度和功耗改善有兩倍之多,這基本延續了之前摩爾定律的勢頭。
在特征尺寸對于芯片性能提升幫助有限的情況下,封裝技術將會成為芯片性能提升的另一個推力。在本次發布會上,AMD發布的Radeon Instinct加速卡中一個最重要的關鍵詞就是32GB HBM內存。HBM使用高級封裝技術,將處理器和DRAM做在同一個封裝內,可以大大降低走線長度,增加走線密度和總線寬度,從而提供遠高于傳統DDR標準的內存帶寬。事實上,目前內存帶寬已經成為了阻礙處理器完全發揮峰值計算能力的重要瓶頸,因此HBM內存將會成為處理器性能提升的重要技術。
此外,AMD還宣布將會在7nm VEGA GPU中使用Infinity Fabric。Infinity Fabric與Nvidia的NVLink有相似也有不同的地方,NVLink主要是用于加速多塊GPU間的數據通信,而Infinity Fabric則即可以用于片上網絡(NoC),也可以用于封裝內的互聯或者片外互聯。除了在VEGA GPU內使用之外,AMD還將在其CPU中搭配Zeppelin架構使用Infinity Fabric。Zeppelin是AMD今年在ISSCC會議上發布的新架構,通過高級封裝技術和Infinity Fabric互聯技術可以在封裝內高效集成多塊芯片,從而實現靈活的集成模式,根據需求可以集成多塊處理器芯片或者是多塊不同的芯片。在高級封裝領域,AMD非常重視,在幾年前的GPU中用上了HBM內存,而隨著Zeppelin架構的發展我們看到AMD正在往封裝方向繼續深挖潛力。當然,Intel也并不落后,其EMIB高級封裝技術也處于領先位置。AMD、Intel和Nvidia在高級封裝領域的競爭,我們還將繼續關注追蹤。
結語
AMD此次在Computex上發布的7nm產品彰顯了其進軍數據中心應用的決心,而數據中心應用可望能接過PC的大旗成為計算機市場的下一個發展動力。在芯片技術方面,7nm工藝提供的優勢主要在于集成度和功耗,對于性能的提升除了特征尺寸縮小之外還得依靠封裝技術。