數十年來,Xilinx一直是FPGA的領導者,目前仍占有60%的市場份額。英特爾近三年前以167億美元收購了Xilinx的競爭對手Altera,占據了其余市場的大部分份額。盡管Xilinx多年來一直保持穩定增長,2018財年收入達到創紀錄的25.4億美元,較上年增長8%,但是FPGA仍然剛剛開始在數據中心領域找到自己作為計算引擎的基礎。英特爾、AMD和IBM的CPU仍然是計算的主要驅動因素,在英偉達、AMD,以及前途無量的Arm的GPU加速器的輔助下,這些公司集體希望能夠參與由Cavium領導的運動。其他加速器也越來越多地被使用,如FPGA和定制ASIC,但現在的數據中心仍然由CPU主導。
盡管如此,在Xilinx工作了10年的資深員工Victor Peng(他從1月份開始擔任Xilinx的首席執行官)看到了這種變化,并設想了可編程邏輯芯片走入大型數據中心用戶和云構建者的HPC 中心、以及常規企業數據中心的時代。
計算領域正在發生變化,這推動了對更多異構計算的需求,這些計算可以適應現有的工作量,而無需更改任何底層基礎架構。特別是,從核心到網絡邊緣再到云的更多端點正在連接起來,并通過傳感器、攝像頭和其他設備實現智能,而且它們正在創建大量非結構化數據。這些數據推動了對更強的計算和更大的存儲的需求,同時也推動了利用人工智能和機器學習等技術來實現更優秀的洞察力和決策的需求。
正如我們在文章《下一代計算平臺》中談到的,FPGA對機器學習和深度學習的興趣。今年夏天,Xilinx收購了創業公司DeePhi(DeePhi主要從事神經網絡和FPGA領域的業務),增加了自己的產品組合,。
Peng在硅谷Hot Chips 2018會議的主題演講中說:“這種智能完全連成一體,這種技術的確正在出現,而且真的是剛剛起步,特別是從今天的角度來看,智能不僅意味著某種級別的某種處理器(在許多情況下是SoC),而且因為所有這些應用都具有某種形式的人工智能,通常是某種形式的機器學習,所以它們同樣也被集成到一起。之所以如此令人興奮,是因為它不僅已經對人們的日常生活產生影響,還因為它只是剛剛出現,它將對人們的生活產生深遠的影響,因為變化正在以指數級的速度發生。”
Peng指出,一些預測說,在不久的將來,每年的數據量將超過10個ZB,“從中獲取價值通常意味著要處理數據并以某種形式從原始數據中提取信息,這推動了超大規模數據中心服務器數量的強勁增長。數據中心的擴展要比我們所見過的大得多,計算、存儲和內存都在增加,如果你看看以指數級速度增加的數據處理和總存儲空間,你就會發現到目前為止數據中心的能力尚可以跟得上需求。”
(有趣的是,這一切都是由大型數據中心用戶的各種形式的廣告收入以及云構建者的原始基礎設施服務推動的。)
然而,在這種情況下,有一個很大的“但是”,那就是摩爾定律,Peng稱之為“非常大的生存挑戰”。摩爾定律縮小了晶體管的尺寸,可以在給定的區域內集成更多的晶體管,以實現更多的功能和更低的成本。在過去的50年里,摩爾定律一直很好地為行業服務,而現在它已經走到了窮途末路。
Peng表示:“這是我們所有人心中根深蒂固的想法,即便是科技行業以外的普通消費者,他們也希望更快、更便宜。每一年,對于所有的電子產品,我們都會期望在同樣的價格下,產品的性能會變得更好,這是物理定律。所以,當摩爾定律不再為我們服務時,問題是非常嚴重的。”
多年來,芯片制造商已經采取了很多措施來跟上摩爾定律的步伐,包括增加更多內核、在內核中驅動線程,以及利用加速器。但是Peng說,使系統更快更好不僅要通過處理器技術實現,而且要通過架構實現。架構有其自身的挑戰,特別是功率和密度,而這也限制了性能。
Peng說:“在過去的40年里,計算主要集中在CPU和微處理器上。從2000年開始,摩爾定律開始失效。從2010年開始,事情開始向異構系統發展,計算被劃分為通用處理器和固定的硬件加速器。它可能是GPU或MPU,當然還有ASIC的復興,特別是在機器學習方面。”
機器學習和其他新工作任務,以及聯網智能設備的激增(數以百億計,正在向數千億計激增)正在推動對芯片技術的新一輪投資,以及對可配置和可修改的硬件平臺的需求。異構架構設計將是推動性能向前發展的關鍵。Peng表示:“對于機器學習和所有連網的設備和系統,你無法讓它們固定不變,因為你無法預測在部署時需要滿足的所有需求,而且你不想通過改變物理器件來完成設備的功能。這種不僅能夠在軟件層面進行更改,而且能夠在硬件層面遠程更改大型智能設備的概念正在變得越來越強大,為了實現未來的構想,這是絕對需要的。”
在Hot Chips會議上,Peng和Xilinx的其他人員在演講中談到了公司即將推出的產品,包括即將推出的自適應計算加速平臺(ACAP)和7nm“Everest”SoC。Xilinx在3月份首次討論了ACAP,雖然在Hot Chips會議上沒有進行深入探討(很可能會在10月份的Xilinx開發者論壇上進行),但Peng確實花了一些時間論述。Xilinx表示,ACAP將為公司目前16nm FPGA的機器學習推理帶來20X的性能,為5G網絡帶來4X的性能。Everest SoC將于今年晚些時候在臺積電7nm工藝試產。
ACAP的關注點在于適應性和可編程。該平臺的可編程引擎將首先處理機器學習推理和5G網絡的工作。架構的核心是組塊陣列,每個組塊相互連接,有各自的本地存儲,而且可以擴展,以針對特定的應用。Xilinx將提供一系列針對廣闊的新市場的SKU。可編程邏輯將包括DSP、LUT、URAM和BRAM。根據Peng的設想,該架構將允許用戶對架構進行編程,以最好地滿足應用的需求。這使得組織能夠將相同的芯片部署到不同的工作中。
Peng 表示:“這將使內核和DSA進出的速度更快,同時減少設計限制。它適用于多個市場。關于數據中心和云有很多討論,但由于其靈活性和深度,它將服務于所有市場。該架構是可擴展的,因此它將用于汽車應用、云應用,以及介于兩者之間的東西,例如通信、基礎設施。它不僅軟件可編程,硬件也可編程。”
它還將帶來更高的吞吐量、更低的延遲和更低的功耗,在談論現代工作任務時,這些因素都與頻率一樣重要。
Peng 表示:“如今,尤其是由于人們對機器學習的關注,我們陷入了對于尖端技術的狂熱。這讓我想起了上世紀90年代的兆赫戰爭。這真的不重要,重要的是應用的加速。我們運行這些東西通常是幾百兆赫或一千兆赫左右,并不會太高。原因在于,由于我們的架構普遍具有適應性,我們有很多分布式片上存儲器和連接性可以自定義,甚至端口的部分配置也可以自定義。你不僅可以優化數據路徑和數據流,還可以優化內存層次和帶寬,以及大量的片上帶寬。”