戈特弗里德·萊布尼茨,德國哲學家、數學家、律師,同時也是一位男爵,是一位德意志歷史上的傳奇人物,他最為讓人們“印(shen)象(wu)深(tong)刻(jue)”的發明被我們叫做“微積分”,此外,他也是數據分析、現代邏輯學和二進制等學科的重要奠基人。
以這位貴族命名的萊布尼茨超級計算中心(LRZ)位于德國加爾興,在這里部署的通用計算HPC系統“SuperMUC”是全球高性能計算TOP500排行榜上的常客,2012年第一次上榜時位列TOP4,2013年6月的榜單上仍排在前十位以內,在2014年11月的榜單上排在Cray一套“不可以說名字的”系統之后,位列14位。
2015年7月12日,ISC 2015大會現場,在最新一期全球高性能計算TOP500榜單上,SuperMUC系統有兩套上榜,一套看起來是舊的2012年第一次上榜的系統,位列第20位;另一套稱為SuperMUC Phase 2(階段2),緊挨在前一套之后,排在21位,兩套系統的性能合計約6.763PFlops,與官方網站公布的6.8PFlops基本相同(想要了解為什么是兩套系統而不“合二為一”的請直接拉至文末)。
需要指出的是,階段2(Phase 2)是一套全新的、以英特爾至強E5-2697 v3(Haswell)及至強融核(Xeon Phi)為核心處理器,由聯想Lenovo NeXtScale nx360M5 WCT為基本系統單元構建的SuperMUC系統。
在如此眾多的媒體爭相報道天河二號再度奪冠的時候,我們為什么要將這套系統單獨拿出來說呢?原因我們暫且按下不表,首先讓我們大致介紹一下這套系統。
聯想System x iDataPlex構建SuperMUC
這套HPC是歐洲高級計算合作關系(PRACE)在高性能計算領域內的項目之一,是這一計劃在歐洲最核心的、“Tier-0層”的計算平臺,將面向全歐洲的科學及工程計算研究人員開放。
全新的SuperMUC采用的是聯想System x iDataPlex服務器系統,初期以32GB(階段1)和64GB(階段2)內存配置的瘦節點以及少量256GB內存的胖節點為主要架構,它包括了18個以英特爾Sandy Bridge EP為核心的瘦節點“島”、6個英特爾Haswell EP為核心的瘦節點島以及1個以英特爾Westmere EX為核心的胖節點島。
每個節點島擁有512個服務器節點,每節點皆為雙路服務器,單個節點島最大的處理器核數為8192個核心,按照512 x 2 x8計算,這一數字應當為八核心的Westmere EX處理器的胖節點島,目前英特爾至強E5 v3的處理器(Haswell EP)核心數量最多為18個核心。
階段1和階段2的瘦節點分別采用FDR10和FDR14 Infiniband連接,胖節點則通過QDR InfiniBand連接。此外,在這一集群中還包括一個名為SuperMIC的集群,這是一個每節點都安裝兩個英特爾Xeon Phi加速卡的共計32節點英特爾Sandy Bridge EP處理器的混合計算集群。
據官網顯示,它的內存容量總數約為194TB,僅是第一階段系統的占地面積就高達21m x 26m,耗電量只有大約1.1兆瓦特,后端并行存儲容量約為15PB,歸檔和備份系統的容量則超過30PB。
全新的SuperMUC采用SuSE Linux企業服務器(SLES)作為操作系統,GPFS并行文件系統,通過Icinga和Splunk進行系統監控。
SuperMUC階段1加階段2的架構示意圖,可以看到左側是全新的英特爾至強E5 v3的計算集群。
為什么SuperMUC要單獨拿出來說一說呢?當然,這是聯想收購IBM System x之后,位列在全球TOP500排行榜中排位最高的HPC系統,而聯想也是此次TOP500排行榜最大的贏家,這不僅是聯想的成功,也是中國HPC行業有機會嘗試觸碰到全球最高領域的機會,但這還不是SuperMUC備受關注的主要原因。
溫水散熱?用在SuperMUC上可不是玩笑
2014年收到為LRZ設計建造這套HPC的邀約時,設計團隊計算采用創新的溫水散熱系統(Warm Water cooling),這一系統據稱效率是常規風冷散熱技術的4000多倍,可大幅節省40%的制冷散熱成本。
LRZ的SuperMUC水冷的進水溫度高達40-45攝氏度(據聯想方面透露,應該是45度),冷卻用水由被稱為“free-cooling”的外部散熱供水系統系統,由于德國常年氣溫不超過35度,因此40-45度的水溫可以很輕松的獲得。
SuperMUC系統,里面每個部件都布滿了水冷管,是全球首款采用溫水散熱的商用HPC系統。
聽起來40-45度的“溫水(接近熱水)”散熱與傳統數據中心的散熱完全不是一個概念,畢竟傳統數據中心的冷卻水溫度都在16攝氏度左右,出口的水溫也只是在20攝氏度左右,幾乎沒有溫水的使用,因為“人們總是想要更低溫度的水”。
但其實40-45度的溫水進行冷卻完全沒問題,早在2010年,瑞士蘇黎世理工學院安裝的HPC系統Aquasar就采用了溫水散熱系統,碳足跡減少高達85%,那么Aquasar的溫水是多少攝氏度?60攝氏度!據稱,處理器可以承受的最高溫度為85-90攝氏度,出口水溫65攝氏度的Aquasar為蘇黎世理工學院的園區提供了取暖及其他用途的熱水。
SuperMUC出水口的熱水可以為園區內的其他生活建筑供熱或用于其他用途,據稱這一系統可以節省125萬美元的開支。
在溫水散熱的低能源消耗幫助下,SuperMUC的PUE值高達1.1,整機效能高達90.95%,聯想方面給出的資料顯示:5年整體電費下降37%(從27.6M歐元降至17.4M歐元,節省超過1000萬歐元)
SuperMUC(階段1)的占地面積示意圖,上方的黃色和橘黃色管線就是水冷系統及水冷管。
此外,還有一些與SuperMUC有關的細節包括:
·SuperMUC的磁帶備份和存檔系統使用來自IBM的TSM(Tivoli Storage Manager),至今一直使用磁帶系統作為作為災難恢復的最后一道防線。
·SuperMUC連接到一套非常強大的可視化系統,科學家們也非常愛護自己的眼睛,新的LRZ辦公樓內有一個大型的4K清晰度Powerwall顯示系統,以及5面CAVE虛擬現實環境系統。
·SuperMUC的出水口溫度通常高達70攝氏度,國內大部分小區集中供暖的水溫在60-80攝氏度左右,常見的是入戶80攝氏度,回水60攝氏度,而地暖的入戶水問題通常為60-65攝氏度就已經足夠了。
那么,在“溫水”都可以用來散熱的今天,水冷是否在數據中心、高性能計算系統里面成為主流?是否即將開始較大規模的商用?從SuperMUC和許多業界正在推動的水冷HPC系統來看,至少第一步已經邁出去了。
水冷效率更高 為什么不呢?
服務器水冷技術并不是一個很新的技術,像是Google在2006年之前就開始研究這一技術,并在2009年申請且得到了水冷服務器的專利,http://谷歌水冷服務器專利的主要技術特點是服務器主板兩兩成對安裝在散熱片的兩個外側,由散熱片內流過溫度較低的冷凍水來帶走熱量。
其中高發熱的元件,比如CPU和南北橋芯片組等靠近散熱片內的冷凍水來安裝,從而發出的熱量被散熱片內的冷凍水就近帶走;而一些發熱量不高的器件,比如內存和硬盤等則直接安裝在稍遠離三明治散熱片中心的位置,部分案例中還有服務器風扇或電源風扇安裝在某側的服務器主板上,用于將內存和硬盤等的熱量帶,走。
谷歌認為水的比熱容遠遠大于空氣,而且水和電一樣,總體是可以控制在管路范圍內,而氣體體積太大且四處游散較難控制,風扇的功耗還高于水泵的功耗,因此采用水冷技術更優。
System x是行業內水冷技術比較超前的產品系列,除了2010年的首款“熱水”水冷HPC系統Aquasar、前面介紹過的“溫水”系統SuperM,System x團隊還在2012年嘗試在現有冷水、溫水、熱水等水冷技術之外,開發出一種可以直接使用自然水進行冷卻的技術,通過這項技術,人們還可以進一步降低功耗,而且還無需對水進行加熱或者制冷即可實現系統冷卻。
供應商Asetek在2012年推出了面向服務器的水冷散熱解決方案,其一體化水冷的1U服務器一體化水冷散熱器解決方案是當時較為廉價其能夠為商業企業所應用的非常實際的解決方案。
Asetek是Cray和富士通在液冷技術領域的合作伙伴,為富士通的PRIMERGY CX400服務器和Cray的CS300/400-LC集群超級計算機提供水冷解決方案,以及針對英特爾至強融核Knights Landing的水冷解決方案。這家公司有一項被稱為Direct to Chip(直達芯片D2C)的HPC系統冷卻技術,目前在美國的桑迪亞鎖甲實驗室、密西西比州州立大學以及美國國家可再生能源實驗室得到了應用。
在今年的ISC 2015大會上,Asetek也展示了其RackCDU溫水水冷解決方案。
聯想NeXtscale System(綽號飛虎)的服務器采用了聯想先進的水冷技術,單節點浮點計算性能超過1萬億次,得益于水冷技術,英特爾至強處理器E5-2600v3可以持續運行在Turbo模式下, 性能提升30%,同時,無風扇設計可以讓噪音減少80%。
水冷技術在服務器特別是HPC領域的應用如今已經日益成熟,雖然在過去幾年里,水冷技術都處于Demo甚至是“走秀”的階段,但是隨著超大規模數據中心、高性能計算機建設的加速以及水冷技術本身的進展,水冷技術更進一步走出特殊定制化領域已經看到了極大的可能性。
在冷水難得的時候,Google選擇水溫較低的哥倫比亞河流域建立數據中心,但此后我們見到了溫水甚至是熱水技術;很多國內HPC及數據中心的建設者們擔憂水質量的問題,System x團隊又開始嘗試使用自然水進行冷卻,總的來說“遇到問題,解決問題,利用問題實現技術進步”不止是HPC行業,更是整個IT行業的基礎規則,從這一角度來講,為什么水冷(也包括各種液冷技術)不會是未來非常可行的技術呢?這一次ISC 2015上所展示的技術,或許用不了多久就會在數據中心內見到。
有關“兩套SuperMUC”的疑問:
正如前文所說,TOP500榜單上有兩套SuperMUC系統,一套是2012年上榜的系統,另一套的Phase 2(階段2)系統,在官方網站上LRZ只是指出這是兩個階段的系統,但為什么會成為排名20和21名的兩套系統呢?
階段1架構圖,可以看到SB-EP和WM-EX的計算島都是在一個InfiniBand高速網絡中。
階段2,兩套系統通過互聯網/網格服務進行連接,而不是一個InfiniBand高速網絡。
據聯想集團中國區大客戶事業部System x解決方案銷售總監么石磊表示,可以推測之所以SuperMUC分為兩套系統,主要原因就是高速互聯網絡上,LRZ的Linpack測試應當是進行拆分計算的,畢竟中間的連接不是高性能網絡而是表現一般的互聯網。
不過,這兩套系統都是聯想System x溫水水冷技術的HPC系統。