人工智能的最佳計算基礎(chǔ)設施是什么?

責任編輯：cres 作者：Yevgeniy Sverdlik |來源：企業(yè)網(wǎng)D1Net 2019-08-19 09:58:53 原創(chuàng)文章企業(yè)網(wǎng)D1Net

Nvidia公司人工智能超級計算機負責人Charlie Boyle日前闡述了人工智能硬件和數(shù)據(jù)中心的現(xiàn)狀和未來發(fā)展。

比以往任何時候都更重要的是，對于每個新的數(shù)據(jù)中心工作負載，IT組織必須回答的問題是在哪里運行。如今，最新的企業(yè)計算工作負載是機器學習(或人工智能)的變體，無論是深度學習模型培訓還是推理(使用經(jīng)過培訓的模型)，人工智能基礎(chǔ)設施已經(jīng)有太多的選擇，因此很難直接為企業(yè)找到最佳的解決方案。

市場上有各種各樣的人工智能硬件選項，廣泛且快速增長的人工智能云服務范圍，以及用于托管人工智能硬件的各種數(shù)據(jù)中心選項。Nvidia公司是機器學習基礎(chǔ)設施生態(tài)系統(tǒng)中最重要的一家公司，它不僅為全球的人工智能工作負載(Nvidia GPU)銷售和生產(chǎn)大多數(shù)處理器，它還構(gòu)建了大量運行在這些芯片上的軟件，并銷售自己的人工智能超級計算機。

行業(yè)媒體Datacenter Knowledge(DCK)與Nvidia公司的DGX人工智能超級計算機高級營銷總監(jiān)Charlie Boyle一起探討了人工智能硬件發(fā)展和人工智能基礎(chǔ)設施的發(fā)展趨勢。以下是采訪內(nèi)容：

DCK：企業(yè)如何決定是將云計算服務用于其機器學習還是購買自己的人工智能硬件采用機器學習?

Charlie Boyle：我們的大多數(shù)客戶都使用內(nèi)部部署和云計算的組合。我們看到的最大動態(tài)是數(shù)據(jù)所在位置決定處理它的位置。在人工智能環(huán)境中，需要處理大量數(shù)據(jù)才能得到結(jié)果。如果所有這些數(shù)據(jù)都已經(jīng)存在于企業(yè)數(shù)據(jù)中心中(企業(yè)可能收集了10～30年的歷史數(shù)據(jù))，那么希望將處理過程盡可能接近企業(yè)所在的位置。因此，它有利于內(nèi)部部署系統(tǒng)。如果是一家業(yè)務從云端起步的公司，并且其所有客戶數(shù)據(jù)都在云端，那么最好在云平臺中處理這些數(shù)據(jù)。

DCK：是因為很難將大量數(shù)據(jù)移入和移出云端嗎?

Charlie Boyle：這還取決于企業(yè)如何生成數(shù)據(jù)。大多數(shù)企業(yè)的數(shù)據(jù)都是動態(tài)的，因此總是會添加數(shù)據(jù)，因此，如果他們在系統(tǒng)中收集所有數(shù)據(jù)，那么他們就更容易繼續(xù)在內(nèi)部處理它們。如果他們將大量數(shù)據(jù)聚合到云服務中，那么他們就會在云平臺上處理它。

這適用于生產(chǎn)用例。許多實驗性用例可以從云端開始，企業(yè)只需啟動瀏覽器即可訪問人工智能基礎(chǔ)設施，但隨著他們轉(zhuǎn)向生產(chǎn)，企業(yè)就可以做出本地決策、財務決策、安全決策，以及是否更好地在內(nèi)部部署或在云平臺上處理它。

Nvidia公司的客戶通常在內(nèi)部進行一些人工智能模型培訓，因為這是他們的歷史數(shù)據(jù)所在。他們構(gòu)建了一個很好的模型，但是該模型隨后由他們的在線服務提供服務——他們在云中基于他們在內(nèi)部部署構(gòu)建的模型進行的推理。

DCK：對于那些在自己的內(nèi)部部署或托管數(shù)據(jù)中心運行人工智能工作負載的企業(yè)，考慮到機架的功率密度越來越高，您認為他們將采用哪種冷卻方法?

Charlie Boyle：數(shù)據(jù)中心采用液體冷卻還是空氣冷卻始終是一個熱門的爭論話題，我們一直在研究這個問題。一般來說，數(shù)據(jù)中心運行大量服務器機架，有的多達50個，采用傳統(tǒng)的空氣冷卻設施效果良好。當運行更高功率密度的機架時，例如機架的功率為30千瓦～50千瓦，通常采用水冷式熱交換器進行冷卻，這就是在數(shù)據(jù)中心實施的最新冷卻措施，因為這樣數(shù)據(jù)中心就不會改造冷卻系統(tǒng)本身的管道。

現(xiàn)在，我們的一些OEM合作伙伴也基于我們的GPU構(gòu)建可以直接冷卻芯片的水冷系統(tǒng)，一些企業(yè)希望構(gòu)建一個超級密集的計算基礎(chǔ)設施，他們將會提前部署冷卻基礎(chǔ)設施。但是，通過我們與大多數(shù)托管服務提供商的合作，發(fā)現(xiàn)只有水冷系統(tǒng)才能更好地支持高功率密度的機架運行。

直接冷卻芯片更像是一個運營問題。我們的技術(shù)現(xiàn)在可以做到，但如何為它提供服務呢?對于正常運營的企業(yè)來說，這將是一個學習曲線。

DCK：NVIDIA DGX系統(tǒng)和其他GPU驅(qū)動的人工智能硬件如此密集，以至于無法采用空氣冷卻進行冷卻嗎?

Charlie Boyle：我們所有系統(tǒng)都可以采用空氣冷卻和液體冷卻技術(shù)。主要是因為我看到大多數(shù)客戶都在采用這些方法。在我們對于功率密度的處理并不是固有的方法，因為在可預見的將來，我們不能實施空氣冷卻或混合冷卻技術(shù)，這主要是因為大多數(shù)客戶會受到機架功率的限制。

現(xiàn)在，我們正在運行30～40kW的機架。當然也可以運行100kW和200kW的機架，但現(xiàn)在沒有人愿意部署這樣功率密度的機架。那么可以采用液體冷卻嗎?也許，但它確實是每個客戶最有效的選擇。我們看到客戶采用混合體冷卻方式，他們正在回收廢熱。我們將繼續(xù)關(guān)注這一點，繼續(xù)與在這些公司合作，看看他們的方法是否具有意義。

我們的工作站產(chǎn)品DGX station采用的是一種內(nèi)部閉環(huán)水冷技術(shù)。但是在數(shù)據(jù)中心基礎(chǔ)設施的服務器端，大多數(shù)客戶還沒有采用。

DCK：大多數(shù)企業(yè)數(shù)據(jù)中心甚至不能冷卻30kW和40kW機架。這是DGX產(chǎn)品銷售的障礙嗎?

Charlie Boyle：這并沒有障礙，而是一個對話點，這也是我們宣布DGX就緒計劃第二階段的原因。如果只是談論安裝這樣的機架，任何數(shù)據(jù)中心都可以支持，但是當數(shù)據(jù)中心安裝了50～100個這樣的機架時，那么企業(yè)需要重新建設數(shù)據(jù)中心或者尋求托管數(shù)據(jù)中心服務商的幫助。

這就是為什么我們試圖消除DGX產(chǎn)品銷售阻礙的原因，通過與這些托管數(shù)據(jù)中心服務商合作，讓我們的數(shù)據(jù)中心團隊對他們進行盡職調(diào)查，以便他們擁有更高的功率密度，并且需要實施液體冷卻，所以客戶可能需要部署50個DGX-2超級計算機的空間，數(shù)據(jù)中心提供商已經(jīng)有了這些數(shù)據(jù)，然后向我們訂購。

當我們?nèi)昵巴瞥鲞@些產(chǎn)品時，有些客戶購買幾套產(chǎn)品時，他們會提出如何大規(guī)模購買和安裝的問題，我們的一些客戶選擇建造新的數(shù)據(jù)中心基礎(chǔ)設施，而另一些客戶則向我們尋求有關(guān)托管數(shù)據(jù)中心服務商的建議。我們?yōu)榇藰?gòu)建了DGX就緒數(shù)據(jù)中心計劃，以便客戶不必為此等待。

即使對于擁有強大數(shù)據(jù)中心設施的客戶，他們也多次向我們公司購買一些30kW的機架。或者客戶可以與我們的托管數(shù)據(jù)中心合作伙伴進行合作，可以更快地獲得服務和產(chǎn)品。

DCK：您是否看到客戶選擇托管數(shù)據(jù)中心服務商，即使他們擁有自己的數(shù)據(jù)中心空間?

Charlie Boyle：由于人工智能設備對大多數(shù)客戶來說通常是一種新的工作負載，因此他們不會試圖采用現(xiàn)有的基礎(chǔ)設施，可以為此建設或購買新的基礎(chǔ)設施，所以對于他們來說，部署在他們的數(shù)據(jù)中心或者托管數(shù)據(jù)中心，這并不重要——只要經(jīng)濟有效，并且可以很快完成工作。這是大多數(shù)人工智能項目中的一個重要組成部分：他們想快速展示成功。

即使是Nvidia公司，我們在總部(位于加利福尼亞州圣克拉拉)附近采用多個數(shù)據(jù)中心供應商提供的服務，因為我們有辦公空間，但沒有數(shù)據(jù)中心。幸運的是，在硅谷，我們周圍有很多優(yōu)秀的供應商。

DCK：Nvidia公司正在推廣DGX作為人工智能的超級計算機。其架構(gòu)與傳統(tǒng)高性能計算(HPC)工作負載的超級計算機有什么不同嗎?

Charlie Boyle：大約五年前，人們看到高性能計算(HPC)和人工智能系統(tǒng)之間存在非常明顯的差異，但是現(xiàn)在，這二者很多功能已經(jīng)合并。以前，每個人都認為超級計算機是64位、雙精度。而人工智能工作負載主要是32位或16位混合。而這兩種技術(shù)應用在兩個不同的場合。

人們現(xiàn)在看到的是一個典型的超級計算機會在很多節(jié)點上運行一個問題，而在人工智能工作負載中正在做同樣的事情。MLPerf(人工智能硬件性能基準測試版)剛剛發(fā)布，大量節(jié)點只完成一項工作。人工智能和高性能計算之間的工作量實際上非常相似。使用我們最新的GPU，可以提供傳統(tǒng)的高性能計算雙精度，人工智能為32位精度，并加速人工智能混合精度。

傳統(tǒng)的超級計算中心現(xiàn)在都在采用人工智能技，可能已經(jīng)建立了超級計算機，但他們都在同一個系統(tǒng)上運行超級計算機任務和人工智能工作負載。

這兩者的架構(gòu)相同。在過去，超級計算使用的網(wǎng)絡不同于傳統(tǒng)的人工智能。現(xiàn)在一切都融合了。這就是客戶為什么要買Mellanox產(chǎn)品的部分原因。現(xiàn)在，超級計算基礎(chǔ)設施對于雙方都至關(guān)重要。人們認為它只是一個深奧的高性能計算機，但它將會成為主流;而企業(yè)現(xiàn)在將它作為他們的人工智能系統(tǒng)的支柱。

DCK：人工智能硬件有著激烈的競爭，例如谷歌的TPU、FPGA，云計算提供商和創(chuàng)業(yè)公司設計的其他定制芯片，這是不是Nvidia公司的關(guān)注點?

Charlie Boyle：我們總是關(guān)注競爭，但我們的競爭對手以我們?yōu)榛鶞省Ｎ覀冊谶@個行業(yè)如此多產(chǎn)的部分原因是我們無處不在。在谷歌云平臺中采用Nvidia GPU，而在亞馬遜云平臺中，也有Nvidia GPU。

如果筆記本電腦配有Nvidia GPU，可以對此進行訓練。我們的GPU運行一切事務，可以在筆記本電腦上進行深度學習訓練的軟件堆棧與在我們在超級計算機上運行的軟件堆棧相同。

當所有這些創(chuàng)業(yè)公司和不同的人選擇一個基準時，這是一個巨大的問題。例如有的公司表示，“我們真的很擅長ResNet 50。”如果只做ResNet 50，這只是企業(yè)整體人工智能工作量的一小部分，所以具有軟件靈活性和可編程性對我們來說是一筆巨大的財富。為此，我們在過去十年中建立了一個生態(tài)系統(tǒng)。

這是我認為這個領(lǐng)域的創(chuàng)業(yè)公司面臨的最大挑戰(zhàn)：企業(yè)可以開發(fā)構(gòu)建一種芯片，但是當筆記本電腦和每個云中都沒有采用這種芯片時，讓數(shù)百萬開發(fā)人員使用其開發(fā)的芯片是很困難的。當查看TPU(谷歌的定制人工智能芯片)，TPU僅在他們認為適合的一些工作負載中提交。而我們提交最新的MLPerf結(jié)果時，我們可以提交幾乎所有類別。

具有市場競爭是一件好事，它可以讓企業(yè)變得更好。而憑借擁有的技術(shù)和生態(tài)系統(tǒng)，我們才能擁有真正的優(yōu)勢。

DCK：傳統(tǒng)的HPC架構(gòu)與人工智能融合意味著傳統(tǒng)的HPC供應商現(xiàn)在正在與DGX競爭。這會對你的工作帶來困難嗎?

Charlie Boyle：我認為它們根本不是競爭對手，因為這些公司都使用Nvidia GPU。如果我們向客戶銷售系統(tǒng)，或者HPE、Dell或Cray向客戶銷售系統(tǒng)，只要客戶滿意，我們就沒有問題。

我們制造的軟件在我們自己的幾千個DGX系統(tǒng)上運行，通過我們的NGC基礎(chǔ)設施在內(nèi)部提供(NGC是Nvidia公司的GPU優(yōu)化軟件在線分銷中心)，因此我們所有的OEM客戶都可以下載相同的軟件。在容器中也使用相同的軟件，因為我們只希望每個客戶都擁有最佳的GPU體驗。

因此，我不認為這些公司是競爭對手。作為產(chǎn)品線所有者，我們與我的OEM合作伙伴分享了很多東西。我們總是先構(gòu)建DGX系統(tǒng)，因為我們需要證明它是有效的。然后吸取這些經(jīng)驗教訓，并把它們提供給我們的合作伙伴，以縮短它們的開發(fā)周期。

我們會和任何一家OEM公司進行溝通，如果他們正在考慮建立一個新的系統(tǒng)，我們可以為他們提供幫助。

DCK：DGX中是否有獨特的Nvidia IP未與OEM廠商共享?

Charlie Boyle：獨特的IP是我們在Nvidia內(nèi)部為我們自己的研發(fā)而建立的令人難以置信的基礎(chǔ)設施：我們所有的深度學習研究，這些都是在幾千個DGX系統(tǒng)上完成的，所以我們從這些系統(tǒng)中學習，并將學習成果傳遞給我們的客戶。在HPE、戴爾或Cray系統(tǒng)中也可以找到同樣的技術(shù)。

我們從客戶那里聽到的一個常見問題是，“我想使用你們用的東西。”其實那就是DGX系統(tǒng)。如果客戶喜歡使用HPE系統(tǒng)，因為他們喜歡采用其管理基礎(chǔ)設施。

但從銷售和市場的角度來看，只要人們購買GPU，我們就會感到高興。

DCK：谷歌公司最近宣布了一種新的壓縮算法，使人工智能的工作負載能夠在智能手機上運行。未來數(shù)據(jù)中心需要更少的GPU，因為手機可以完成所有的人工智能計算嗎?

Charlie Boyle：世界總是需要更多的計算。是的，手機的功能將會變得更強大，但世界對計算的渴望正在不斷增長。如果我們在手機中加入更多計算機功能的話，這意味著什么?

如果人們經(jīng)常旅行，可能會熟悉美聯(lián)航或美國航空公司的語音應答系統(tǒng)：在過去的幾年中，其功能變得更好，因為人工智能正在改善語音響應。隨著它變得越來越好，人們需要更多的服務，更多服務意味著更多的計算能力。所以需要更多的GPU來完成這項任務。因此，在手機上使用的功能越好，對我們來說就越有利。我認為所有消費者服務都是如此。

DCK：您是否在移動網(wǎng)絡邊緣看到了令人信服的機器學習用例?

Charlie Boyle：我們與很多電信公司開展合作，無論人們使用流媒體，還是使用個人定位服務，電信公司總是試圖靠近客戶。大約十年前，我曾在電信公司工作，一直渴望把很多服務遷移到邊緣。我們看到一些機器學習應用程序?qū)⒃谶吘夁\行。隨著5G的推出，人們只會看到更多的東西在邊緣運行。

DCK：電信公司在邊緣測試或部署什么樣的機器學習工作負載?

Charlie Boyle：這一切都是針對特定用戶的服務。如果人們在某個地區(qū)，手機上的應用程序已經(jīng)知道其在該區(qū)域，可以為其提供更好的建議或更好的處理方法。然后，隨著人們開始消耗越來越多的內(nèi)容，隨著帶寬的提高，更多的處理將轉(zhuǎn)移到更遠的邊緣。

DCK：雖然電信公司是將計算推向邊緣的公司，但他們是否也會提供您所指的所有豐富服務?

Charlie Boyle：有時候他們正在構(gòu)建服務，也會購買服務。我認為這就是當今人工智能和機器學習應用程序得到迅速應用的地方。如今，有很多初創(chuàng)公司在構(gòu)建電信公司目前正在消費的特定服務。他們提出了很好的想法，電信公司的分銷網(wǎng)絡是放置這些類型服務的理想場所。很多服務需要大量的計算能力，所以我認為邊緣采用的GPU將是一個令人關(guān)注的產(chǎn)品。

關(guān)鍵字：人工智能