未來是屬于機器學習、異構計算的,而AMD將迎來其新的機遇......AMD公司的首席執行官如是說。
當前的數據中心的世界充滿了英特爾和Nvidia的芯片,而AMD可能還并未被這一行業所廣泛接受。
該公司曾一直在努力應對的其密集服務器業務也已經于去年關閉了,但這一舉措尚未對數據中心市場產生重大影響,但該公司認為他們有機會改變現狀。
隨著我們在日常的工作和生活中產生越來越多的數據,以及采用機器學習工具來處理這些數據變得越來越流行,迫使數據中心行業需要積極的采用異構計算,AMD公司堅持認為,他們已然為迎接應對和處理這種轉變做好了最充分的準備。
不斷產生的數據
“今天,我們大部分人甚至都有好幾款不同的連接設備。”AMD公司的首席執行官蘇姿豐博士在參加由Datacenterdynamics.com網站所主辦的新聞活動上表示說。 “所以這是非常令人振奮的。”
“但更令人振奮的則是:數據中心業界所正在發生的改變。當我們把目光投向這一行業時,我們實際上看到了問題和機遇并存。其問題在于,企業現在有數以百萬計的互聯的設備,生成了海量企業甚至真正未能使用的數據信息,您企業真的不知道該拿這些數據信息怎么辦,因為到今天為止我們大多數企業的系統還不夠復雜。”
“因此,鑒于擁有如此海量亟待處理和利用的所有這些數據信息,數據中心行業必須進行改變。而這一改變當然是從過去幾年就已經開始的,但我們所觀察到的則是:這一改變在未來幾年還將進一步加速。這就是我們所看到的整個行業的進化,在接下來的幾年里,您將會持續看到我們所推出的不同產品。”
企業組織在日常的生產過程中所產生的數據量正在進一步擴大的事實是顯而易見的。但是,這些數據信息到底是跨多少平臺,以多快的速度產生的還有待探討。此前,愛立信曾表示,預計到2020年,全球范圍內將會有500億臺互聯的設備,而現在IHS則認為這一數量將為176億臺,而Gartner公司認為將達到64億臺(但不包括智能手機,平板電腦和計算機),國際數據公司(IDC)預測會有90億臺(也限于物聯網設備)。
那么,AMD公司認為處理所有這些設備及其產生的數據需要些什么呢? “這真的是關于機器智能的。這是業界發展的下一步。”蘇說。
“機器智能將涉及到處理來自超過500億臺設備所產生的所有的數據信息,并找出如何使用這些數據信息的合理的方式,如何使用一種有用的方式,使我們可以變得更智能。”
來源:AMD公司
根據蘇介紹,關于這些數據需要注意的是:它們有各種不同的形態和大小。
“我們當前所收集的包括了文本數據,視頻數據,音頻數據或其他方面的數據。鑒于有了所有這些不同的數據,使得我們真的是處在 一個異構的系統中了。這意味著您需要所有類型的計算來滿足這些數據的不同處理需求。您企業將需要CPU、需要GPU、需要加速器、需要ASIC、需要快速互連技術。所有這一切都是必要的,其關鍵是異構環境,異構計算架構。
“異構計算”這一術語指的是使用多于一種的處理器或核心的系統,目的在于滿足現代工作負載可能具有的所有各種處理需求。 “我們在過去十年里一直在談論異構計算,”Su說。 “這就是我們想要將CPU和GPU整合在一起的原因。”
早在2013年,AMD公司就已經將異構計算引入了對于服務器的探索追求。彼時,該公司計劃推出“Kaveri”產品系列,用于臺式機、筆記本電腦、嵌入式芯片和數據中心系統。對于服務器,AMD將Kaveri作為柏林加速處理單元(APU),其被稱為“世界上首款具備服務器APU的異構系統架構(HSA)”。
在柏林加速處理單元推出背后提供支持的是Andrew Feldman。他是SeaMicro公司的創始人兼首席執行官,Andrew Feldman曾經對AMD未來接管英特爾的機會持樂觀態度。但在2014年,Feldman離開了該公司,并表示說“AMD旗下的SeaMicro集團比以往任何時候都更強。”該部門于一年后關閉,也使得該款柏林未能按預期出售。
AMD公司認為,由于在市場上的最新變化,歷史本身不會重演。蘇說:“當人們不太明白為什么我們這樣做時,我們這樣做了,然后我們也深入了解了市場。但現在非常清楚的是,在當下這個機器智能的時代,我們需要異構計算。”
她繼續說:“AMD是業內唯一一家能打造真正的、高性能的異構應用程序的。我們已經投資Zen架構四年了,并將看到其在2017年帶來回報,這是一款真正的現代CPU。我們還投資于Radeon芯片產品,我們將繼續實現Radeon芯片產品的大幅下降。”
“而其他非常重要的事情是,我認為AMD與業界其他企業是有著顯著區別的。當我們在談論將CPU和GPU在一個高性能的系統中連接在一起時,我們要做的是一款開源的軟件平臺。我們將用一個開放的互聯網絡與行業互動。而這正是我們所堅信的下一代數據中心和機器智能時代將獲得成功的方式。”
來源:AMD公司
關于GPU
AMD公司旗下Radeon技術事業部高級副總裁兼首席架構師Raja Koduri表示說:“當我還在上研究生時,經常看到有一些人對AI和神經網絡抱著玩世不恭的態度,當然也有些業界的人在持續不斷的推進算法。”
“而這一切已經發生了,借助我們在算法方面所積累的知識,才使得今天的電腦智能游戲玩家的GPU有了足夠的計算來解決復雜的算法。所以,今天我們實際上能夠以非常有效的方式訓練這些神經網絡。”
Koduri是對的——GPU已經被機器學習社區所接受。但是他們所采用的GPU主要是由Nvidia制造的,Nvidia擁有其Pascal Titan X和特斯拉加速器的擴展系列——全部采用了CUDA深度學習程序,由Nvidia的cuDNN機器學習庫提供支持。
最近,AMD公司為谷歌和阿里巴巴(他們也使用Nvidia的產品)提供了GPU,他們認為其最新產品將改變這一切。
該公司將其稱為“Radeon Instinct”,這是一款圍繞Radeon開放計算平臺(ROCm,以前稱為Boltzmann倡議)的硬件和軟件的堆棧。“對我們來說,這實際上不僅僅是一個品牌。”Koduri說。 “這是一個全新的倡議計劃。”
“我們將解決利用通用基礎設施的關鍵垂直領域。這個基礎設施的構建塊是我們的硬件類產品,我們稱之為Radeon Instinct硬件平臺,并且我們有完全開源的Radeon開放計算軟件平臺。此外,我們正在構建優化的機器學習框架。”
“云服務和超大規模是我們的首要任務,但我們也從事一些金融服務、能源、生命科學和汽車領域。”
Radeon Instinct的硬件方面包括三款新的被動冷卻加速器:MI6、MI8和MI25。
Radeon Instinct MI6專為推理工作而設計,使用具有16GB內存的Polaris GPU提供高達5.7 Tflops的FP16或FP32吞吐量和224 GB / s的內存帶寬。
Radeon Instinct MI8專為推理和其他HPC工作負載而設計,包含一個帶4GB HBM RAM的Fiji GPU,可提供8.2 Tflops的FP16或FP32吞吐量和512 GB / s的內存帶寬。
對于Radeon Instinct MI25來說,了解不多,因為其將與AMD即將推出的下一代Vega GPU一起推出,該GPU尚未完全展示。 MI25是專為AI訓練的。
來源:AMD公司
“訓練需要消耗很多的GPU計算能力,需要花費幾個小時的時間。”Koduri說。 “大約6-8 Tflops的單個GPU需要幾個小時,這將取決于數據集的大小和所有其他方面。推理速度要快得多。因此,GPU被用于這兩個任務,我們的策略是同時解決這兩個任務。”
但是,“硬件只是這個市場的問題的一半,”他補充說。 “如果硬件是最重要的事情,那么AMD GPU有方式來解決,在過去10年里,我們比任何其他GPU具備更多的計算性能,我們每毫米平方打包了更多的計算能力,計算成本比我們的競爭對手要低。所有這一切是從2005年開始的。距今已經十一年了。”
在軟件方面,AMD公司的ROCm可以加速諸如Caffe、Torch 7和TensorFlow這樣的通用深度學習框架。AMD宣布推出的另一款重要產品是MIOpen。 “這是一個深度學習庫,完全開源,針對Radeon Instinct進行了優化。借助MIOpen,我們的機器學習進程的速度提高了三倍。”
此外,Radeon Instinct加速器將支持使用AMD的MxGPU功能的硬件虛擬化。
“我們在所有這些市場都有競爭細分。”Koduri說。 “您企業想獲得虛擬化技術?您必須購買Grid;若您企業想獲得AI技術?您需要特斯拉。而我們的客戶都想實現這一切整合在一起,我們為他們提供了跨越整個堆棧的虛擬化功能。”
Koduri還認為,當涉及到加速器時,選擇專有的開放源是一個錯誤:“如果您了解一下當今的計算基礎設施,另一件事情是,他們實際上是基于Linux的同構進程。而專有加速器,具備專有加速器軟件和專有加速器互連,才剛剛開始在數據中心領域獲得發展。但我們并不相信這會持續下去。”
“這是關于異構處理器的,這是我們企業客戶的系統所真正想要的,他們希望整個軟件是開源的。這對數據中心來說是非常重要的。想象一下,今天的數據中心沒有Linux的情況是怎樣的。開放互連也非常非常重要。開放加速器——加速器,其指令集是開放的,以便人們可以構建自己的定制化編譯器,定制軟件基礎設施。這是未來的計算基礎設施。”
來源:AMD公司
編譯器技術也是Koduri對構建GPU硬件的初創公司持懷疑態度的原因之一。 “有許多初創公司,我與其中一些一起工作過,以便了解我們是否應該將它們的一些技術集成到GPU方面。”他告訴DCD網站的記者說。 “但是,當我們與他們溝通時最根本的障礙在于:當我們問他們是否有一款編譯器時,他們卻表示自己只是雇了一個小團隊,他們會為我們編寫一個編譯器架構。”
“我們知道我們花了多長時間來得到我們今天的編譯器。其實際上開始于為VX8.1編寫著色器編譯器直到今天,此前我們有一個100人的編譯器團隊和一個完整的編譯器基礎。實際上很難為新架構開發編譯器技術。”
當談到正在由云服務公司自己開發,或至少部分開發的硬件主題,如谷歌的TPU,微軟的FPGA和亞馬遜的芯片在2015年收購Annapurna實驗室時,Koduri同樣缺乏熱情。
他告訴DCD的記者說:“令人驚訝的是,他們可以負擔得起任何硅芯片,但每家公司都說他們正在構建芯片,他們實際上正在構建一款FPGA作為概念證明,因為構建硅芯片是一個超昂貴的過程,您需要大量的卷才有意義,當您企業表示“我們要制作我們自己的芯片”時,您要使用或銷售多少?所以這涉及到一個規模化的問題。最終,這會像我們公司,Nvidia和英特爾一樣,銷售了數百萬,然后自己占了其中的很多使用案例。
“第二件事情,就像我說的,我們相信,對于下一代機器智能來說,它將是異構處理器。所以它將是可編程的CPU、可編程的GPU、FPGA和具備特殊功能的東西。我們認為互連是一件非常重要的事情,這些如何相互協作將是非常重要的。”
Koduri補充說:“如果您了解一下數據中心的設施,他們的GPU實際上遠遠超越了機器智能的用途,所以他們正在執行托管任務,托管專業的應用程序,這在今天是相當大量的。因此,如果一家數據中心有100,000個GPU,那么他們不希望浪費。事實上,他們不希望任何硅芯片資源的浪費,所以如果您企業有一些特殊的目的,并建立一處規模龐大的數據中心,但卻并沒有被充分使用,這顯然不是一件好事。這是特殊功能的問題,他們并沒有其他用途。”
關于CPU
為了實現這種“在高性能系統中將CPU和GPU連接在一起”的愿景,需要一款具備異構計算的CPU。
在2017年第二季度,AMD公司將發布 Zen Naples平臺(注:消費者關注的Zen的版本已被重命名為Ryzen,但服務器版本仍然稱為Zen)。今年早些時候,泄漏規格的產品是運行SMT(同時多線程)的32 Zen CPU內核,允許64個線程和一個大規模的512MB三級緩存。
“這是一款為GPU和加速器吞吐量計算優化的平臺,”Koduri說,宣布 Radeon Instinct具備與Zen Naples平臺。
“它將大大降低異構計算的系統成本。這是最低延遲的架構,具有對等通信,利用大盒支持,以便您企業可以有許多的GPU連接到單個節點。這就是我們的企業客戶所想要的。不再試一兩個GPU,而是四,八,十六個。
“這個微小的外形規格意味著我們可以在數據中心業界獲得的進展將是相當令人興奮的。”
為了配合 Radeon Instinct的推出,AMD還展示了三款服務器來容納其新技術。
在小的方面,我們看到了超微Micro SYS 1028GQ-TRT的推出,這是一款1U雙Xeon機箱,帶有三個PCIe3 16x插槽,全部裝有Instinct卡。接下來是Inventec的K888 G3具備Radeon Instinct,一款2U盒,Instinct GPU和兩個Haswell或Broadwell Xeons,達到100 Tflops。
但最令人印象深刻的技術是Inventec PS1816 Falconwitch。 400 Tflop beast打包了16個Instinct MI25卡,以及在2U服務器中未公開的CPU數量。其CPU沒有命名,但被認為是基于Zen的Naples。
Falconwitch可以與Radeon Instinct組合形成Inventec機架,創建一個具備120個Instinct GPU的3 Petaflop機器。
所有這一切僅僅只是改變數據中心的開始,Koduri告訴DCD的記者說。
“我認為,在未來幾年中,我們將開始看到一些有趣的方法進入邊緣數據中心領域,因為今天的基礎設施、技術都在不斷發展進步。 一旦您看到諸如“可以打造一個小小的petaflop數據中心時”,那么您就會開始考慮您可以把它放在您的蜂窩塔(cell tower)上的事實了。 那么,petaflop計算還應該距離您企業一千英里遠呢?”
“顯然已經沒有什么好的理由了!”