AI和HPC的電力和冷卻需求需要專業(yè)知識(shí)和能力,運(yùn)營(yíng)和工程也需要具備專業(yè)知識(shí)。
正如數(shù)據(jù)中心發(fā)現(xiàn)自己需要處理電力、空間和可持續(xù)發(fā)展等新問(wèn)題一樣,最新的尖端技術(shù)、AI和機(jī)器學(xué)習(xí)給所有這些問(wèn)題帶來(lái)了挑戰(zhàn)。
這并不是說(shuō)必須面對(duì)的這些問(wèn)題是新的,而是AI的采用正在以前所未有的速度發(fā)生。在一年左右的時(shí)間內(nèi),托管提供商將需要進(jìn)行調(diào)整,以應(yīng)對(duì)企業(yè)對(duì)高密度數(shù)據(jù)中心的新的、更大的需求。
那么,這實(shí)際上意味著什么呢?似乎不太可能有一大批客戶投資數(shù)百萬(wàn)美元購(gòu)買AI專用硬件,敲響托管提供商的大門,那么數(shù)據(jù)中心需要提供什么呢?
電力和冷卻優(yōu)先
在基礎(chǔ)設(shè)施方面,電力和冷卻的可用性將是客戶首先尋求的。但是,提供商是否需要能夠支持整個(gè)數(shù)據(jù)大廳的NVIDIA H100規(guī)模的GPU,或者更有可能的是,具有4或8個(gè)GPU服務(wù)器和適當(dāng)存儲(chǔ)的單個(gè)機(jī)架就是所需的全部?
當(dāng)然,對(duì)于相對(duì)簡(jiǎn)單的單一AI服務(wù)器部署,單機(jī)架解決方案可能需要支持50kW或更多。正如我們最近指出的,處理這種工作負(fù)載的技術(shù)已經(jīng)在許多設(shè)施中到位,但它只是將AI部署到主機(jī)托管中的一個(gè)起點(diǎn)。
對(duì)于提供商和客戶來(lái)說(shuō),現(xiàn)在和未來(lái)的中期解決方案是AI即服務(wù)解決方案。
換句話說(shuō),托管客戶大規(guī)模AI部署的市場(chǎng)正開(kāi)始推動(dòng)需求,因?yàn)樗坪趺總€(gè)人都有興趣涉足其中。這意味著,擁有各自云的微軟、谷歌、亞馬遜甚至甲骨文都將看到客戶希望使用其按需配置來(lái)測(cè)試、評(píng)估并潛在地部署云AI服務(wù)。
誰(shuí)將推動(dòng)這一需求?
但進(jìn)入提供AI云服務(wù)的不僅僅是頂級(jí)參與者。在最近的Computex 2023大會(huì)上,英偉達(dá)特別強(qiáng)調(diào)了他們的云合作伙伴,除了四大之外。
Cirrascale就是一個(gè)這樣的例子,他們最初是作為HPC按需計(jì)算的提供商而成名的。他們現(xiàn)在提供他們的AI創(chuàng)新云,該云利用支持基礎(chǔ)設(shè)施為客戶提供評(píng)估AI/ML系統(tǒng)的機(jī)會(huì)。他們對(duì)AI托管的承諾反映在客戶可供選擇的方面。
客戶不僅可以選擇使用前幾代和當(dāng)前幾代NVIDIA AI硬件,該公司還可以托管他們的GraphCloud,利用Graphcore的BOW IPU;Cerebras的AI Model Studio在他們托管的Cerabras云上運(yùn)行;以及SambaNova的數(shù)據(jù)流即服務(wù)和基礎(chǔ)模型。
這是四種領(lǐng)先的加速AI/ML技術(shù),它們不是Google或AWS,這兩家公司除了自己的內(nèi)部設(shè)計(jì)外,還提供Nvida GPU。Cirrascale也可能是這些相互競(jìng)爭(zhēng)的技術(shù)的唯一來(lái)源,在某些情況下,還提供互補(bǔ)技術(shù),甚至在他們的云中提供不同技術(shù)的公開(kāi)定價(jià)模型。
Lambda Labs采取了一種略有不同的方法,他們提供五種不同級(jí)別的基于Nvidia的托管服務(wù),以及為你的ML硬件和軟件堆棧設(shè)計(jì)的全面托管服務(wù)。它們提供專為GPU計(jì)算工作負(fù)載設(shè)計(jì)的高密度電源和冷卻。此外,他們還可以在你的數(shù)據(jù)中心或其數(shù)據(jù)中心內(nèi)部提供其設(shè)計(jì)的GPU群集。
NVIDIA強(qiáng)調(diào)的其他供應(yīng)商包括Coreweave、Paperspace和Vultr。所有這些提供商的共同點(diǎn)是,它們都是專門的云服務(wù)提供商,擁有多個(gè)數(shù)據(jù)中心,并專注于支持AI/ML工作負(fù)載。有些公司的目光超越了他們的AI重點(diǎn),提供了更標(biāo)準(zhǔn)化的云數(shù)據(jù)中心選項(xiàng),例如全方位的存儲(chǔ)、托管數(shù)據(jù)庫(kù)、Kubernetes和裸機(jī)部署。
這讓我們對(duì)主機(jī)代管的未來(lái)有了一些了解。隨著新設(shè)施的建設(shè)和現(xiàn)有空間的翻新,為高密度計(jì)算開(kāi)發(fā)必要的支持基礎(chǔ)設(shè)施,無(wú)論是提供帶有被動(dòng)后門冷卻的機(jī)架,還是配備用于部署液體冷卻IT工作負(fù)載設(shè)備的完整數(shù)據(jù)大廳,或者介于兩者之間的任何東西,都需要引起人們的注意。
它將成為行業(yè)的驅(qū)動(dòng)力
雖然并不是每個(gè)數(shù)據(jù)中心都需要配備設(shè)備來(lái)運(yùn)行最密集的AI工作負(fù)載,但當(dāng)前的趨勢(shì)是,僅寶貴的數(shù)據(jù)中心位置的空間就非常寶貴,這意味著構(gòu)建更高密度的機(jī)架解決方案是通向未來(lái)的唯一途徑。
這并不意味著每個(gè)數(shù)據(jù)中心都需要按照Colovore設(shè)施的方式來(lái)建設(shè),Colovore設(shè)施提供每個(gè)機(jī)架35千瓦的標(biāo)準(zhǔn)密度,并談到了構(gòu)建超過(guò)200 kW機(jī)架的能力(這個(gè)數(shù)字似乎過(guò)高,除非你看看AI/ML工作負(fù)載專用硬件的電力需求)。但這確實(shí)意味著,尤其是在空間有限的地方,數(shù)據(jù)中心將需要標(biāo)準(zhǔn)化,以支持顯著更高的電力和冷卻需求。
對(duì)現(xiàn)有設(shè)施來(lái)說(shuō),幸運(yùn)的是,冷卻技術(shù)的進(jìn)步并不需要對(duì)現(xiàn)有的冷卻基礎(chǔ)設(shè)施進(jìn)行大規(guī)模的拆卸和更換。有足夠廣泛的冷卻技術(shù)可以實(shí)現(xiàn)經(jīng)濟(jì)高效的按需升級(jí),新的機(jī)架設(shè)計(jì)、被動(dòng)和液體冷卻技術(shù)以及從機(jī)架擴(kuò)展到整個(gè)數(shù)據(jù)中心的解決方案近在咫尺。
作為這些技術(shù)的一個(gè)極好的例子,在2023年8月的第一周,Digital Realty宣布其在28個(gè)市場(chǎng)的代管設(shè)施將開(kāi)始支持高達(dá)70kW的機(jī)架密度。該公司正在使用所謂的空氣輔助液體冷卻技術(shù)來(lái)實(shí)現(xiàn)這一點(diǎn),該技術(shù)通過(guò)在現(xiàn)有的代管設(shè)施中引入液體冷卻后門熱交換器來(lái)實(shí)現(xiàn)。
對(duì)高密度托管的支持不是在未來(lái),而是現(xiàn)在。找到可伸縮性良好的解決方案將是許多提供商的目標(biāo)。隨著客戶開(kāi)始了解高性能計(jì)算和AI解決方案將為他們的業(yè)務(wù)帶來(lái)的價(jià)值,推動(dòng)這些變化的業(yè)務(wù)正在迅速增長(zhǎng)。
關(guān)于企業(yè)網(wǎng)D1net(hfnxjk.com):
國(guó)內(nèi)主流的to B IT門戶,同時(shí)在運(yùn)營(yíng)國(guó)內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營(yíng)19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開(kāi)頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。