當超級計算機的計算能力動輒每秒百萬億次、千萬億次的時候,廈門大學網絡計算中心每秒25萬億次的超級計算機還能入你的法眼嗎?我甚至懷疑,25萬億次能夠進入全球超級算機Top500排行嗎?
對科學計算的依賴
廈門大學信息與網絡中心副主任許卓斌在接受采訪時表示:“高性能計算說得比較多,我們更喜歡用科學計算來描述,因為它可以很明確地指向基礎學科研究,如化學、物理、生物學科所涉及的分子動力學、結構、流體力學,環境海洋、氣候學計算。”“國內很多人建設高性能計算中心往往會考慮HPC Top500排行,我個人可能更看重計算應用的實際需求。高性能計算也遵循‘摩爾定律’,價格每年下降1/3,因此,應用就是要和時間賽跑。”他說。談到超級計算機應用,廈門大學化學化工學院趙儀教授表示,廈門大學理論化學研究在國內名列前茅,由廈大牽頭的”國家能源材料化學協同創新中心”,是一個專門研究能源材料化學的超級科研中心,該中心的計算全部要依靠HPC技術。據廈門大學化學化工學院吳瑋教授介紹,在理論化學研究需要大量使用商用軟件,其中很多屬于大型的軟件。除了商用軟件之外,很多教授也會自己做一些軟件開發。“我們的研究始終伴隨著軟件的應用和開發。” 吳瑋教授說。
集中和分布相結合
廈門大學超級計算機建設應用是一個集中和分散相結合的典型模式。其中,通過構建集中超級計算機,由網絡計算中心管理和調度為全院的學科應用提供服務,與此同時,化學化工學院也根據自己的特點和需要,采購了部分超級計算機。廈門大學信息與網絡中心工程師余鈺煒介紹了廈門大學超級計算機應用的三個階段。廈大作為綜合性大學,對高性能計算非常依賴,起步也非常早,1996年就有擁有第一臺HPC計算機。2006年又構建了以SuperDome為核心的第二代高性能計算系統。如今系統構建于2013年,屬于第三代產品,50個節點采用了System x服務器,其計算能力可以達到每秒25萬億次。而就在去年,聯想已完成對System x產品線的收購。
記者查閱了最新全球Top 500排行,25萬億次計算能力距離Top500動輒百萬億次的門檻還有一段距離,但就像許卓斌所說,高性能計算不是以Top500排行論英雄的,再好的機器,也還是需要在使用中發揮威力。
計算能力很重要
趙儀教授表示:超級計算機的能力非常重要。“如今,計算軟件已經非常完美,只要橫向擴展,它的能力就會被充分釋放,計算的效率完全不同,如果超級計算能力不夠強,有時候需要等上一個月,甚至更長時間。”他說。“事實上,廈大對高性能計算的需求是非常大的,如今的系統遠遠不夠滿足使用。我們正在設想構建一個基于云架構的服務系統,對設備進行統一管理,有些系統仍然放在如化學化工學院,但能夠從云端調用,分享計算資源,這是未來的發展方向。”許卓斌說。廈門大學化學化工學院工程師谷俊井表示,如今超級計算機的利用率非常高,因為學生、老師人數很多,經常會有作業排隊。如果作業的并行度不高,則作業就會對服務器的主頻和內存提出很高的要求,這就需要采購過程中格外關注。許卓斌表示,并不是任何x86服務器都適合用于構建超級計算機集群。一要關注能耗,不同品牌服務器散熱、功耗控制設計各不相同,需要選擇低能耗的產品。二要關注穩定性,不僅事關維護,也關乎成本和效率。如果一個計算算了一半失敗,從頭再算,相當于損耗翻倍。第三需要對x86服務器進行定制。通常高性能計算需要高CPU主頻,但對內存容量的需求可以適當降低。 “我認為胖節點超級計算的市場還會長期存在,但是不再是主流,其市場還會萎縮,生態圈廠商還會繼續減少。”他說。
合理調度是關鍵
如今上海、北京、深圳等城市都構建了超級計算中心,借助集中服務的模式,避免重復建設造成的浪費,這也是一個管理的思路。吳瑋教授表示,很多時候超級計算應用不是簡單的算一下,很多軟件需要自己寫、自己調試。如果使用外部資源,限制會比較多,如果需要靈活定制,價格不菲,因此很多時候,還是需要把握平衡點。“這牽涉到一個資源調度的問題。” 許卓斌說。他表示,我們會選擇LSF平臺軟件,支持RISC、X86的共享調度。通過構建虛擬機平臺,同時也實現了不同操作系統的跨平臺調度。這讓管理的效率大大提高。我們也制定了大/小隊列的調度策略,防止使用一個CPU計算作業過多搶占資源。相對而言,公共計算資源就沒有這樣的靈活策略。應該說專業化的管理,對于控制超級計算機的使用成本立竿見影。如今,廈門大學信息與網絡中心數據中心的PUE控制在1.64的水平,這在全國數據中心也是非常高的水平。據了解,廈門大學采用了各種降低能耗的技術,如冷熱通道封閉等。這些技術不復雜,關鍵在于落實和實施。利用新校區建設的有利條件,這就擺脫了環境條件限制的制約,這就使得數據中心達到了一個非常好的水平。而新舊校區之間的裸光纖連接,也讓老師和學生能夠跨越地理空間的限制。一切都體現了很高的水平!這是廈門大學超級計算中心留給我的印象!