幾年前,每到電商大促、春晚紅包等重大節(jié)點(diǎn),宕機(jī)和救火幾乎是從不缺席的戲份。你經(jīng)??梢越?jīng)歷或聽聞剁手時(shí)提交不了訂單、無法付款的情況。
然而近兩年,卻是另外一番景象:
即便在618大促這樣的流量波峰,大多數(shù)電商平臺都頂住了高并發(fā)壓力,平穩(wěn)渡過年中狂歡,除了大促時(shí)間從一個(gè)日子延長到一段日子外,算力的迅猛增長也是其中一個(gè)重要原因。
可以看到,算力正進(jìn)入“基建化”時(shí)代。正如中國信通院在一份研究報(bào)告中所揭示的:2016年到2020年期間,中國的算力規(guī)模平均每年增長42%,其中2020年的算力總規(guī)模已經(jīng)達(dá)到135EFlops,并仍在保持55%的高速增長速度。
不過,算力高速增長的同時(shí),也帶來了新的問題。
01
計(jì)算與散熱的
“零和博弈”
對不少人來說,“計(jì)算”早已不是什么新概念。每一次打開“綠碼”,每一次視頻會議,每一次搜索點(diǎn)擊……都離不開數(shù)據(jù)中心的處理計(jì)算。“計(jì)算”在日常生活中的無縫滲透,勾勒出多彩的數(shù)字世界。
可當(dāng)計(jì)算量越來越大,功耗也隨之上升。以全球最為知名的預(yù)訓(xùn)練大模型「GPT-3」為例,GPT-3每次訓(xùn)練都要消耗巨量算力,需用掉約19萬度電力、產(chǎn)生85萬噸二氧化碳,可謂“耗電怪獸”。
倘若這些電力用在“計(jì)算”本身,或許不是什么壞消息。畢竟數(shù)字經(jīng)濟(jì)時(shí)代有個(gè)著名的經(jīng)濟(jì)學(xué)解釋,即算力上每投入一元,將帶動3-4元的經(jīng)濟(jì)產(chǎn)出,“性價(jià)比”遠(yuǎn)高于傳統(tǒng)的農(nóng)牧業(yè)和工業(yè)生產(chǎn)。
然而現(xiàn)實(shí)的情況卻并不樂觀。根據(jù)開源證券研究所的統(tǒng)計(jì)結(jié)果,在一個(gè)數(shù)據(jù)中心的能耗分布中,散熱系統(tǒng)的占比高達(dá)40%。也就是說,數(shù)據(jù)中心每耗費(fèi)一度電,只有一半用在了“計(jì)算”上,其他的則浪費(fèi)在了散熱、照明等方面。
計(jì)算和散熱幾乎陷入了一場零和博弈,計(jì)算量越大散熱消耗的電量越大,可是如果不付出足夠的能源支撐散熱,又將直接影響數(shù)據(jù)中心的性能、密度和可靠性。
業(yè)內(nèi)也由此流行起了「PUE」的概念,即電源使用效率,用來測算數(shù)據(jù)中心消耗的所有能源與IT負(fù)載消耗的能源的比值,被視為評價(jià)數(shù)據(jù)中心能源效率的重要指標(biāo)。PUE值越接近1,表明非IT設(shè)備的耗能越少,數(shù)據(jù)中心的能效水平越高。目前國內(nèi)大型數(shù)據(jù)中心的平均PUE值為1.55,超大型數(shù)據(jù)中心平均PUE值也只有1.46。
2020年國內(nèi)數(shù)據(jù)中心用電量已超過2000億千瓦時(shí),占到用電總量的2.7%,預(yù)計(jì)2023年數(shù)據(jù)中心的能耗就將超過2500億千瓦時(shí),2030年時(shí)將超過4000億千瓦時(shí),用電量占比也將上升到3.7%。就這個(gè)角度而言,解決數(shù)據(jù)中心的能耗問題,已經(jīng)是擺在案前的棘手挑戰(zhàn)。
02
被捧上神壇的
“液冷”技術(shù)
傳統(tǒng)的數(shù)據(jù)中心散熱方案以「風(fēng)冷」為主,以空氣作為冷媒,把服務(wù)器主板、CPU等散發(fā)出的熱量傳遞給散熱器模塊,再利用風(fēng)扇或空調(diào)制冷等方式將熱量吹走,這也是散熱系統(tǒng)消耗數(shù)據(jù)中心近半電力的主要誘因。
當(dāng)PUE值被嚴(yán)格限定,綠色計(jì)算漸漸深入人心,上世紀(jì)80年代就開始嘗試的“液冷”技術(shù)迅速成為產(chǎn)業(yè)上下游的新焦點(diǎn)。其實(shí)“液冷”技術(shù)的原理并不復(fù)雜,簡單來說就是利用礦物油、氟化液等絕緣低沸點(diǎn)的冷卻液作為冷媒,通過熱交換將服務(wù)器的熱量排出,并演變出了冷板式、噴淋式、浸沒式等多種散熱方案。
液冷看似只是“冷媒”的改變,卻為數(shù)據(jù)中心的節(jié)能降耗帶來了諸多可能:
比如風(fēng)冷熱傳導(dǎo)存在過程復(fù)雜、熱阻總和大、換熱效率較低等痛點(diǎn),很大程度上制約了數(shù)據(jù)中心的算力密度,并且常常會產(chǎn)生巨大噪音。對比之下,液冷技術(shù)所呈現(xiàn)出的節(jié)能降耗、減少噪聲、節(jié)約空間的特性,不可謂不誘人。
一個(gè)直接的例子就是「普渡大學(xué)的Bell集群」,這里10個(gè)機(jī)架的戴爾「PowerEdge C6525」服務(wù)器直接浸沒在冷卻液中,運(yùn)行時(shí)產(chǎn)生的熱量直接被冷卻液吸收,PUE最低可以降到1.05左右,散熱所需的功耗比傳統(tǒng)方案降低了90%以上。
再比如風(fēng)冷想要提高散熱能力,最“簡單粗暴”的做法就是提高風(fēng)扇轉(zhuǎn)速,然而這種做法把熱量帶出去的同時(shí),也會在風(fēng)扇和硬盤間形成大漩渦,而這不規(guī)則的湍流可能會影響硬盤的讀寫能力,甚至?xí)驗(yàn)榇蓬^震動導(dǎo)致硬盤報(bào)廢。
液冷技術(shù)近乎完美地規(guī)避了這些不利因素,由于液冷方案是一個(gè)相對靜止的環(huán)境,可以有效降低由空氣、灰塵和震動引起的硬件產(chǎn)品故障率,且數(shù)據(jù)中心始終在低溫環(huán)境中運(yùn)行,因此極大提升了內(nèi)部電子元器件的使用壽命。
可以看到,液冷技術(shù)的出現(xiàn)和應(yīng)用,在很大程度上讓計(jì)算和散熱跳出了“囚徒困境”,對風(fēng)冷降維打擊的綜合優(yōu)勢,也讓液冷技術(shù)被不少人捧上神壇。
然而和很多新技術(shù)一樣,液冷方案同樣存在天然短板:冷卻液的價(jià)格堪比茅臺,無形中增加了散熱的硬性成本;液冷技術(shù)對數(shù)據(jù)中心的機(jī)房環(huán)境要求苛刻,重新改造的成本較高;液冷技術(shù)降低了PUE,運(yùn)營成本卻難言優(yōu)勢……
縱然液冷是各種散熱方案中的無可爭議的翹楚,卻也要考慮現(xiàn)實(shí)因素。
03
戴爾科技
給出最優(yōu)解
今年年初,國家發(fā)改委等部委啟動“東數(shù)西算”工程,將東部的算力需求轉(zhuǎn)移到西部,除了東西部電力資源的不平衡的考慮之外,另一個(gè)重要的因素就是利用自然冷源。
有機(jī)構(gòu)曾經(jīng)估算,在現(xiàn)有的散熱方案下,按照工業(yè)平均電價(jià)每千瓦時(shí)0.5元來計(jì)算,數(shù)據(jù)中心所在地的氣溫每降低1℃,配備10萬臺服務(wù)器的標(biāo)準(zhǔn)數(shù)據(jù)中心機(jī)房每天就可節(jié)約9.6萬元電費(fèi)。
這無疑向外界傳遞了一個(gè)清晰的信號:液冷價(jià)格居高不下,不可能在短時(shí)間內(nèi)徹底取代風(fēng)冷,現(xiàn)階段需要的仍然是多元化的散熱方案。挑戰(zhàn)其實(shí)留給了大大小小的IT廠商:到底是All in 理想化的液冷,還是根植市場的現(xiàn)實(shí)訴求,推出多樣性的解決方案?
在服務(wù)器市場牢牢占據(jù)一席之地的戴爾科技,已經(jīng)給出了自己的答案。
在外界普遍將風(fēng)冷打入“冷宮”的時(shí)候,戴爾并未放棄「風(fēng)冷散熱」的技術(shù)創(chuàng)新,一邊利用最佳的計(jì)算流體動力學(xué)CFD氣流模擬技術(shù)來優(yōu)化系統(tǒng)設(shè)計(jì),一邊推出了將數(shù)據(jù)中心的溫暖廢氣循環(huán)到主空氣調(diào)節(jié)的新風(fēng)(Fresh Air)系統(tǒng),結(jié)合最新的空氣輸送解決方案和先進(jìn)的軟件控制算法,刷新了風(fēng)冷能耗的“成績單”。
比如新一代戴爾PowerEdge系列產(chǎn)品R750,通過合理的散熱布局減少過多氣流,讓服務(wù)器的散熱能效比前代產(chǎn)品提高了60%,大大降低了工作流程中的能源消耗,同時(shí)避免了因過熱導(dǎo)致服務(wù)器宕機(jī)、業(yè)務(wù)中斷的尷尬。
戴爾PowerEdge R750采用英特爾®第三代Xeon®可擴(kuò)展處理器,最高40核心/80線程,并在核心、緩存以及內(nèi)存和I/O方面進(jìn)行了大量優(yōu)化,釋放數(shù)據(jù)中心可擴(kuò)展性能的巨大潛能。
哪怕是“傳統(tǒng)”的風(fēng)冷散熱,戴爾的Fresh Air硬件冷卻解決方案也讓外界看到了新可能:在冬季為建筑設(shè)施提供“免費(fèi)”的熱量,在溫暖月份直接將外部空氣吸入數(shù)據(jù)中心,通過減少運(yùn)行冷水機(jī)時(shí)間等方式,進(jìn)一步降低了服務(wù)器的運(yùn)營管理成本,PUE值同樣有機(jī)會降低到1.05的水平。
對于CPU功率超過150w的需求,戴爾科技針對不同的場景提供了冷板式和浸沒式兩種液冷技術(shù):
前者對應(yīng)的例子有「Triton液體冷卻系統(tǒng)」,將冷卻液直接放入服務(wù)器sled冷卻CPU,不僅帶來了最高的冷卻效率,還降低了冷卻液的用量;「PowerEdge C6520」則是浸沒式技術(shù)的典型代表,以閉環(huán)水流取代典型的金屬散熱器,使服務(wù)器能夠同時(shí)支持高功率處理器和更高的機(jī)架密度。
戴爾科技的答案并不復(fù)雜,不同于對某種技術(shù)的過度依賴,戴爾科技的策略是針對客戶需求提供不同散熱方案,再通過統(tǒng)一能耗管理軟件「OpenManage Power Center」提高客戶對服務(wù)器功耗的可見性和控制性,繼而幫助客戶低成本、自動化、智能化地應(yīng)對各種能耗事件,找到適合自己的最優(yōu)解。
根據(jù)賽迪顧問的預(yù)測,2025年中國浸沒式液冷數(shù)據(jù)中心的市場規(guī)模將超過526億元,市場份額有望突破40%。
站在行業(yè)角度,液冷散熱的高速普及不失為一個(gè)好消息??蓪τ跀?shù)據(jù)中心運(yùn)營者來說,綠色計(jì)算是一件等不得的要?jiǎng)?wù),存量的數(shù)據(jù)中心需要提高散熱能力,找到性能和散熱間的新平衡;對于一些追求“性價(jià)比”的用戶,降低PUE的渠道不應(yīng)只有液冷散熱一種,而需要適合自己的產(chǎn)品和方案。
因此,戴爾科技深入市場需求,為不同用戶提供多樣化散熱解決方案應(yīng)對能耗焦慮,讓您的數(shù)據(jù)中心運(yùn)營更安心。