在例行確認“天河二號”各項參數準確無誤后,國家超級計算廣州中心應用部工程師陳璟錕開始處理來自世界各地客戶的技術方案。陳璟錕看起來并不善于交流,但一聊起“天河二號”,就似遇見多年的好友,滔滔不絕。
去年底,新一期全球超級計算機500強榜單在美國公布,中國“天河二號”超級計算機連續第六度稱雄。
“天河二號”六度奪冠的背后是越來越多像陳璟錕一樣的年輕人,日復一日地為超級大腦保駕護航。目前,超算中心已構建起材料科學與工程計算、生物計算與個性化醫療、智慧城市大數據和云計算等6大應用服務平臺。共有48名工作人員,其中技術人員有30名。
走進廣州超算中心,一排排狹長的黑色機柜整齊地擺放在接近三個籃球場那么大的實驗室中。陳璟錕告訴記者,“天河二號”由170個機柜組成,一共裝有3.2萬顆主CPU和4.8萬個協處理器。雖然每排機柜彼此分開,但它們工作時是彼此相聯的,其實是一臺計算機。
計算速度快,存儲量大,體積也非常大,這是記者看到超級計算機時最直觀的感受。要保證“國之重器”的正常運行,首先需要保證水電不斷。
“基本上我每天來到中心的第一件事就是檢查系統是否正常。比如,能否正常登陸、資源有沒有分配好等,保證整個機器的運行。”這是陳璟錕每天必做的事情。
點亮機柜上的觸控屏,看了看各項參數,“今天的水溫稍微有點高”。陳璟錕告訴記者,機柜負荷運行時,會散發出大量熱量,廣州超算中心采用的是“水冷”系統,這也是為何一進超算中心大門便感到涼快的原因。“8℃的水從水廠泵過來,經過超算中心內循環交換,出水21℃。”
陳璟錕還告訴記者,從目前“天河二號”來看,計算節點的能耗約為18兆瓦,再加上散熱系統的整體能耗在20兆瓦以上。如果正常運行,年耗電量約為2億度。每個星期電費大約在80萬元左右。
據了解,超算中心不僅有固定的運維人員保證“天河二號”平穩運行,同時,無論供電、供水都是“特別配置”。為了保障機器不因斷電而數據丟失,南方電網為超算中心建設了兩路獨立并互為備份的電源。在供水方面,廣州市政府在距離超算中心3公里以外建了一個冷水廠,專門供中心使用。
由于超級計算機的基本組成組件與個人電腦的概念無太大差異,所以很多人會誤以為超級計算機就是簡單的cpu疊加。但這是一個認識誤區。
袁學鋒打了個比方:你用1000臺PC,用普通的網線把它們連接在一起,你可能花了1萬度電,算了10天,但是你用真正的超級計算機,可能只用5000度電,花了兩天就算出來了。
“超級計算機就好比算盤,如果沒有口訣,它就毫無用處。”國家超級計算機廣州中心應用部工程師鐘康游解釋道。對于超級計算機而言,要讓它真正運行起來,也需要各種口訣,但這些口訣更龐大、更復雜。目前科學界把這個算法稱為超級算法理論。
超算中心的工程師們,每天花大量的時間,在優化“口訣”,找出更高效率的計算方法,最大限度地充分利用超級計算機的計算能力。
“有些客戶想要運行一些很龐大的程序,操作比較復雜,但客戶往往還停留在‘雙擊’啟動的操作習慣,就得由我們來優化‘口訣’,讓操作更‘傻瓜’。”鐘康游形象地說,簡單來說優化“口訣”就是“木桶效應”原理。一個木桶能裝多少水,取決于最短的一塊板。而一個程序運行的速度,取決于跑得最慢的那個進程。“我們要做的就是通過一些小技巧,盡可能地使所有進程加快。優化后,原來需要11小時才能出的結果,現在只需3小時。”
袁學鋒表示,目前,天河二號可以連續運行10小時無故障,穩定性全球第一。計算機運行過程中,最核心的是高速互聯。可以想象成是幾萬臺的PC聯在一起做并行計算。而做并行計算的核心就是通訊,使大規模的系統能同步。因此我們要構架足夠短的距離,使通訊速度足夠快、穩定和可靠。