在昨天結束的GTC China 2017大會上,NVIDIA聯合創始人兼CEO黃仁勛先生充滿激情地:"我們都處于計算機的產業,目前遇到了千載難逢的機會,因為整個計算機產業的基礎正在被顛覆。計算機的制造方式被徹底改變了,軟件將不再完全依靠于人類的寫碼能力。"
在這場AI開發者的年度盛會上,百度Apollo的高精地圖、華為GPU加速的智能分析解決方案、中科曙光的人工智能一體化應用服務平臺等,無一不訴說著人工智能時代,無論是硬件還是軟件,我們都迎來了令人興奮的機會。
我們在曙光公司的展臺前還看到了浸沒式液冷方案,據介紹這是一款專門為深度學習提供相匹配散熱能力的高密度高性能計算機,可以使單機柜密度達到100kW.除了曙光將液冷應用在AI領域,今年五月在大連造船廠下水的第一艘國產航母裝備的相控陣雷達也應用了全液冷系統,以便配備更多的收發單元和擴大陣列面積。
這些看似離我們大眾生活過于遙遠的液冷黑科技,正在被各大知名企業引入并在一些專業領域進行應用。就在前不久,曙光公司在液冷服務器大規模應用發布會上向華中科技大學交付了中國首套商用浸沒式液冷服務器(參考上圖),用于華中科技大學自主研發的信息存儲系統、并行分布式計算系統,搭建健康大數據平臺。隨后,聯想在上周也發布了中國第一套超大規模溫水水冷超算集群??梢姡豪浣鉀Q方案的初衷都是實現超高密度部署,提高計算能力。
液冷?水冷?是一回事兒嗎?
對液冷技術比較關注的朋友大概已經捕捉到些許不同,液冷服務器、水冷超算集群,這都是什么樣的存在呢?我們今天就帶著這一問題一探究竟。
液冷,是指通過液體來替代空氣,把CPU、內存條、芯片組、擴展卡等器件在運行時所產生的熱量帶走。根據目前技術研究的進程,將液冷分類為了水冷和冷媒冷卻,可用冷媒包括水、礦物油、電子氟化液等。按照冷卻原理,又將液冷分為了冷板式液冷(間接式冷卻)和浸沒式液冷(直接式冷卻)兩種系統模式。
從曙光和聯想發布的兩款產品來看,都屬于間接式冷卻即冷板式液冷服務器,百度在2017百度AI開發者大會上也展示了在GPU上加了冷板散熱器的X-Man 2.0,這些冷媒都采用了水。
我們從圖片上可以看出,三款服務器都是將水從特制的快速接口注入,經過密閉的送水管路,將CPU的熱量帶走后,通過回水管路流出。其差別在于,曙光和百度所使用的管路為軟管,而聯想則采用了銅管,相比銅管軟管易于彎折,布局更自由。另外曙光第二代冷板式液冷服務器,液體冷卻系統囊括了內存條。
所以,液冷可能是水冷,也可能是其他冷媒,需要根據應用場景的可靠性等級要求而定;但水冷一定是液冷技術范疇內的。
溫水水冷又是什么GUI?
在液體冷卻技術這一領域,又有許多細分的技術,例如浸沒式液冷有相變和非相變流派之分,又例如冷板式液冷提出的液冷統稱和溫水水冷。明明是利用水來做冷卻的,為什么又要用溫水?針對這一問題,我們采訪了曙光冷板式液冷服務器研發總監崔新濤。崔總深思的瞬間仿佛要回憶起最初的設計思路。
他說:"根據熱力學第二定律,熱量從高溫熱能源到低溫熱能源是可以自由流動的,無需外力做功。服務器計算核心CPU是主要的發熱源,其正常工作一般要求核心溫度不高于80℃,而室外溫度是遠遠低于80℃的。那么根據熱力學第二定律,CPU所發出的熱量是可以在沒有外加動力的情況下自發傳導到室外的。那么從理論上講,我們可以把傳統風冷系統里面的風扇、空調、壓縮機這些耗電大戶全部去掉,并用液體代替換熱系數差的空氣,作為新的導熱媒介,這就是液冷技術的基本方法論。"
那么溫水又是什么概念呢?崔總繼續解釋道:"溫水,其實就是我們所說的30-45℃溫度范圍的水。我們在2013年開發第一臺,也是國內第一臺冷板式液冷高性能服務器的時候,為了去掉壓縮機實現自然冷卻,通過大量實驗數據分析將進水的溫度定為35-45℃范圍之間,出水溫度則在45-55℃左右,這樣服務器的水冷循環系統將實現全年自然冷卻,從而大幅降低數據中心PUE值。我們在2015年部署的液冷高性能計算集群是中科院大氣所的'地球系統數值模擬裝置原型系統',該系統全部使用冷板式液冷服務器,共計1375個計算節點,安全運行到現在,其PUE值始終保持在1.17左右。另一個案例是中國最大的電網仿真高性能計算平臺,混合采用了風冷服務器和冷板式液冷服務器,共計750個計算節點,運行半年來的PUE值也很好地保持在了1.27左右??梢姡捎贸厮疄橛嬎銠C核心發熱部件CPU進行冷卻,摒棄壓縮機這一解決方案在減少總體擁有成本的同時,顯著增加了數據中心的能源效率,為實現高密度部署計算能力奠定了基礎。"
進水側水溫是不是越高越好
那么大家就會又有疑問,基于此方法論,進水溫度是否可以設定高于45℃?是不是水溫越高越好?針對這一問題,崔總的解釋更為嚴謹:"在已經實現了全年自然冷卻,達到散熱效果、節能效果的情況下,再去提高進水溫度意義不大。我們現在室內側進水溫度極限值可以做到45℃,即便是進水溫度再提高,能源使用效率提升空間也不大,但液冷系統可靠性開始降低,同時芯片散熱效果也會變差,降低計算機系統的可靠性,得不償失。"
液冷技術逐漸從幕后走向前臺,冷板式液冷技術更是比較成熟,已經開始了產業化進程。經過高性能計算市場的積累,希望在液冷技術方面經驗豐富的曙光能夠繼續帶動液冷產業的發展。僅僅靠一家之力還遠遠不夠,這就需要更多的廠家在液冷技術以及配套原材料研發方面投入更多的精力,形成產業鏈,完善了生態才能夠持續快速發展。