AI和HPC推動(dòng)對(duì)更高密度的數(shù)據(jù)中心、新的即服務(wù)產(chǎn)品的需求

責(zé)任編輯：cres 作者：David Chernicoff |來(lái)源：企業(yè)網(wǎng)D1Net 2023-08-23 14:35:00 原創(chuàng)文章企業(yè)網(wǎng)D1Net

AI和HPC的電力和冷卻需求需要專業(yè)知識(shí)和能力，運(yùn)營(yíng)和工程也需要具備專業(yè)知識(shí)。

正如數(shù)據(jù)中心發(fā)現(xiàn)自己需要處理電力、空間和可持續(xù)發(fā)展等新問(wèn)題一樣，最新的尖端技術(shù)、AI和機(jī)器學(xué)習(xí)給所有這些問(wèn)題帶來(lái)了挑戰(zhàn)。

這并不是說(shuō)必須面對(duì)的這些問(wèn)題是新的，而是AI的采用正在以前所未有的速度發(fā)生。在一年左右的時(shí)間內(nèi)，托管提供商將需要進(jìn)行調(diào)整，以應(yīng)對(duì)企業(yè)對(duì)高密度數(shù)據(jù)中心的新的、更大的需求。

那么，這實(shí)際上意味著什么呢?似乎不太可能有一大批客戶投資數(shù)百萬(wàn)美元購(gòu)買AI專用硬件，敲響托管提供商的大門，那么數(shù)據(jù)中心需要提供什么呢?

電力和冷卻優(yōu)先

在基礎(chǔ)設(shè)施方面，電力和冷卻的可用性將是客戶首先尋求的。但是，提供商是否需要能夠支持整個(gè)數(shù)據(jù)大廳的NVIDIA H100規(guī)模的GPU，或者更有可能的是，具有4或8個(gè)GPU服務(wù)器和適當(dāng)存儲(chǔ)的單個(gè)機(jī)架就是所需的全部?

當(dāng)然，對(duì)于相對(duì)簡(jiǎn)單的單一AI服務(wù)器部署，單機(jī)架解決方案可能需要支持50kW或更多。正如我們最近指出的，處理這種工作負(fù)載的技術(shù)已經(jīng)在許多設(shè)施中到位，但它只是將AI部署到主機(jī)托管中的一個(gè)起點(diǎn)。

對(duì)于提供商和客戶來(lái)說(shuō)，現(xiàn)在和未來(lái)的中期解決方案是AI即服務(wù)解決方案。

換句話說(shuō)，托管客戶大規(guī)模AI部署的市場(chǎng)正開(kāi)始推動(dòng)需求，因?yàn)樗坪趺總€(gè)人都有興趣涉足其中。這意味著，擁有各自云的微軟、谷歌、亞馬遜甚至甲骨文都將看到客戶希望使用其按需配置來(lái)測(cè)試、評(píng)估并潛在地部署云AI服務(wù)。

誰(shuí)將推動(dòng)這一需求?

但進(jìn)入提供AI云服務(wù)的不僅僅是頂級(jí)參與者。在最近的Computex 2023大會(huì)上，英偉達(dá)特別強(qiáng)調(diào)了他們的云合作伙伴，除了四大之外。

Cirrascale就是一個(gè)這樣的例子，他們最初是作為HPC按需計(jì)算的提供商而成名的。他們現(xiàn)在提供他們的AI創(chuàng)新云，該云利用支持基礎(chǔ)設(shè)施為客戶提供評(píng)估AI/ML系統(tǒng)的機(jī)會(huì)。他們對(duì)AI托管的承諾反映在客戶可供選擇的方面。

客戶不僅可以選擇使用前幾代和當(dāng)前幾代NVIDIA AI硬件，該公司還可以托管他們的GraphCloud，利用Graphcore的BOW IPU;Cerebras的AI Model Studio在他們托管的Cerabras云上運(yùn)行;以及SambaNova的數(shù)據(jù)流即服務(wù)和基礎(chǔ)模型。

這是四種領(lǐng)先的加速AI/ML技術(shù)，它們不是Google或AWS，這兩家公司除了自己的內(nèi)部設(shè)計(jì)外，還提供Nvida GPU。Cirrascale也可能是這些相互競(jìng)爭(zhēng)的技術(shù)的唯一來(lái)源，在某些情況下，還提供互補(bǔ)技術(shù)，甚至在他們的云中提供不同技術(shù)的公開(kāi)定價(jià)模型。

Lambda Labs采取了一種略有不同的方法，他們提供五種不同級(jí)別的基于Nvidia的托管服務(wù)，以及為你的ML硬件和軟件堆棧設(shè)計(jì)的全面托管服務(wù)。它們提供專為GPU計(jì)算工作負(fù)載設(shè)計(jì)的高密度電源和冷卻。此外，他們還可以在你的數(shù)據(jù)中心或其數(shù)據(jù)中心內(nèi)部提供其設(shè)計(jì)的GPU群集。

NVIDIA強(qiáng)調(diào)的其他供應(yīng)商包括Coreweave、Paperspace和Vultr。所有這些提供商的共同點(diǎn)是，它們都是專門的云服務(wù)提供商，擁有多個(gè)數(shù)據(jù)中心，并專注于支持AI/ML工作負(fù)載。有些公司的目光超越了他們的AI重點(diǎn)，提供了更標(biāo)準(zhǔn)化的云數(shù)據(jù)中心選項(xiàng)，例如全方位的存儲(chǔ)、托管數(shù)據(jù)庫(kù)、Kubernetes和裸機(jī)部署。

這讓我們對(duì)主機(jī)代管的未來(lái)有了一些了解。隨著新設(shè)施的建設(shè)和現(xiàn)有空間的翻新，為高密度計(jì)算開(kāi)發(fā)必要的支持基礎(chǔ)設(shè)施，無(wú)論是提供帶有被動(dòng)后門冷卻的機(jī)架，還是配備用于部署液體冷卻IT工作負(fù)載設(shè)備的完整數(shù)據(jù)大廳，或者介于兩者之間的任何東西，都需要引起人們的注意。

它將成為行業(yè)的驅(qū)動(dòng)力

雖然并不是每個(gè)數(shù)據(jù)中心都需要配備設(shè)備來(lái)運(yùn)行最密集的AI工作負(fù)載，但當(dāng)前的趨勢(shì)是，僅寶貴的數(shù)據(jù)中心位置的空間就非常寶貴，這意味著構(gòu)建更高密度的機(jī)架解決方案是通向未來(lái)的唯一途徑。

這并不意味著每個(gè)數(shù)據(jù)中心都需要按照Colovore設(shè)施的方式來(lái)建設(shè)，Colovore設(shè)施提供每個(gè)機(jī)架35千瓦的標(biāo)準(zhǔn)密度，并談到了構(gòu)建超過(guò)200 kW機(jī)架的能力(這個(gè)數(shù)字似乎過(guò)高，除非你看看AI/ML工作負(fù)載專用硬件的電力需求)。但這確實(shí)意味著，尤其是在空間有限的地方，數(shù)據(jù)中心將需要標(biāo)準(zhǔn)化，以支持顯著更高的電力和冷卻需求。

對(duì)現(xiàn)有設(shè)施來(lái)說(shuō)，幸運(yùn)的是，冷卻技術(shù)的進(jìn)步并不需要對(duì)現(xiàn)有的冷卻基礎(chǔ)設(shè)施進(jìn)行大規(guī)模的拆卸和更換。有足夠廣泛的冷卻技術(shù)可以實(shí)現(xiàn)經(jīng)濟(jì)高效的按需升級(jí)，新的機(jī)架設(shè)計(jì)、被動(dòng)和液體冷卻技術(shù)以及從機(jī)架擴(kuò)展到整個(gè)數(shù)據(jù)中心的解決方案近在咫尺。

作為這些技術(shù)的一個(gè)極好的例子，在2023年8月的第一周，Digital Realty宣布其在28個(gè)市場(chǎng)的代管設(shè)施將開(kāi)始支持高達(dá)70kW的機(jī)架密度。該公司正在使用所謂的空氣輔助液體冷卻技術(shù)來(lái)實(shí)現(xiàn)這一點(diǎn)，該技術(shù)通過(guò)在現(xiàn)有的代管設(shè)施中引入液體冷卻后門熱交換器來(lái)實(shí)現(xiàn)。

對(duì)高密度托管的支持不是在未來(lái)，而是現(xiàn)在。找到可伸縮性良好的解決方案將是許多提供商的目標(biāo)。隨著客戶開(kāi)始了解高性能計(jì)算和AI解決方案將為他們的業(yè)務(wù)帶來(lái)的價(jià)值，推動(dòng)這些變化的業(yè)務(wù)正在迅速增長(zhǎng)。

關(guān)于企業(yè)網(wǎng)D1net(hfnxjk.com)：

國(guó)內(nèi)主流的to B IT門戶，同時(shí)在運(yùn)營(yíng)國(guó)內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營(yíng)19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。

版權(quán)聲明：本文為企業(yè)網(wǎng)D1Net編譯，轉(zhuǎn)載需在文章開(kāi)頭注明出處為：企業(yè)網(wǎng)D1Net，如果不注明出處，企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

關(guān)鍵字：數(shù)據(jù)中心 AI