中國能在何時重新奪回超算Top 500第一?現(xiàn)在似乎有了答案。
據新華社消息,在國家超級計算天津中心,我國自主研發(fā)的新一代百億億次超級計算機——“天河三號”E級原型機完成研制部署,并順利通過分項驗收,該原型機系統(tǒng)采用了三種國產自主高性能計算和通信芯片。
在此基礎上,“天河三號”超級計算機預計于2020年研制成功!
研究人員在研發(fā)天河三號原型機
這次天河三號項目團隊完成了四項大事:
“這一切都是為了全面實現(xiàn)超算系統(tǒng)的自主可控。”中山大學數(shù)據科學與計算機學院教授、國家超級計算廣州中心主任盧宇彤告訴新智元,原型系統(tǒng)是主要驗證核心關鍵技術的可行性,包括CPU、互連通信、存儲架構、能效比等,并不追求峰值。所以,不和美國Summit系統(tǒng)比規(guī)模。
未來2-3年,打造出全自主的具有國際領先水平的新一代超級計算機
盧宇彤博士告訴新智元,天河三號原型機是國防科大設計和研發(fā)的,部署在天津超算中心,為未來E級天河三號大系統(tǒng)研發(fā)預先構建應用軟件生態(tài)。
“天河三號原型機的性能是國家原型系統(tǒng)項目指標要求的每秒3-5P(1P=1千萬億次)。”盧宇彤說。
也正因如此,“天河三號原型機系統(tǒng)”占地面積小,能耗比超過10 GFlops/W,采用水風冷混合靶向式散熱冷卻技術,實現(xiàn)了可適應科學計算和數(shù)據處理多應用需求的柔性體系結構,突破了計算訪存通信三方平衡的高性能計算結點技術,可支持10萬結點規(guī)模的高速互連和光電混合高速信號傳輸技術,用戶透明的高性能計算環(huán)境軟件支撐等技術,在核心關鍵技術上實現(xiàn)了整體自主可控。
天河三號原型驗證系統(tǒng)的關鍵技術突破和系統(tǒng)研制,也為天河三號E級整機系統(tǒng)提出了計算、訪存、通信性能平衡的設計方案。
未來,天河三號E級超級計算機將對已經設計生產計算、互聯(lián)通信核心芯片再進行全面升級,可支持EB級海量數(shù)據存儲的層次式存儲系統(tǒng)進一步完善,對適用高性能計算和高效大數(shù)據處理的柔性體系結構進一步優(yōu)化,利用2-3年的時間,打造出全自主的具有國際領先水平的新一代天河三號E級超級計算機。
美國Summit重回超算Top 500榜首,但真正的較量在于下一代百億億次超級計算
今年7月,美國的超級計算機Summit超過神威·太湖之光,在最新的全球超級計算機Top 500榜單中,重新奪回了第一名的位置。
美國人終于長舒了一口氣。
超算Top 500榜單每年發(fā)布兩次。2013年6月,中國的天河二號首次奪得冠軍,之后連續(xù)5次占據第一名的位置,直到2016年11月,神威·太湖之光橫空出世,以理論峰值性能125 P奪得當年Top 500冠軍,天河二號位居第二,這樣的排名一直保持到2018年6月。
從美國人眼中看來,中國相當于連續(xù)5年霸占了Top 500冠亞軍的位置。
幾年前,美國部署了3臺百P量級的超級計算機,分別是Summit、Sierra、Aurora,每秒運算速度可達100P到200P左右。除了保持美國超算科技領先,一個很大的原因,就是重新奪回Top 500第一的位置。
根據原定計劃,美國預計在2018年年底推出第一臺機器,以此重返Top 500榜首。
但美國終究還是無法容忍中國再繼續(xù)霸占Top 500的冠軍位置,于是將計劃提前,在今年6月推出了Summit、Sierra兩臺機器。其中,Summit更是將峰值性能直接提升到200P,終于如愿奪回世界第一的寶座,而Sierra也以125P的理論峰值超越天河二號,位居第三。
但是,正如此前中科院計算機研究所并行軟件實驗室主任、國家超算濟南中心主任張云泉指出的那樣,這次美國雖然拿了第一,但Summit與中國的神威·太湖之光所釆用的體系架構相比,并沒有本質的區(qū)別。
張云泉博士在文章里寫道:“太湖之光的峰值是125P,美國的Summit是187P,沒有量級上的性能差別。只是說由于Summit的投資力度大、研發(fā)時間晚,采用了新的工藝和技術,它的峰值比太湖之光高一些,但是其在架構和技術上并沒有拉開差距。”
在張云泉和更多超算專家看來,真正的競爭,在于新一代百億億次(E級)計算機的研發(fā)。
如今,超算已經成為一個國家信息技術創(chuàng)新的核心驅動力量,是綜合國力提升的強大支撐。新一代E級超級計算機的研制是國際上高端信息技術創(chuàng)新和競爭的前沿領域,美國、日本和歐盟均已提出E級超級計算機的研制計劃,幾乎都是在2021年左右完成。
我國的E級超級計算機的研制計劃也早已提上日程。科技部原定計劃是2020年推出中國的E級計算機,但由于技術限制和一些拖延,有可能會延后到2021年。
全球各國又重新開始重視超算,新一代E級計算的競爭賽點,就是2021年!
美國、中國、日本,到底哪個國家最先實現(xiàn)?
決戰(zhàn)2021:中國分三條路探索E級計算機
2016年,國家科技部結合“十三五”發(fā)展規(guī)劃,通過國家重點研發(fā)計劃支持,開始分兩期啟動我國E級計算機研制計劃。第一期主要為“E級計算機關鍵技術”研究,安排了三個E級機原型樣機的研制,第二期則為研制E級計算機。
這三個E級原型機分別是天河三號E級原型機、神威E級原型機和曙光E級原型機。
實際上,今年8月初,神威E級原型機也將在國家超算濟南中心落地,調試完畢后正式進入試運行階段。神威E級計算機原型由中國國家并行計算機工程技術研究中心研制,造價6000萬元,采用水冷技術,運行速度也在規(guī)定范圍內的3~5P。
神威E級原型機正在超算濟南中心安裝
目前,神威E級計算機原型正在濟南中心進行組裝,預計8月初調試并課題驗收完成,之后將正式進入試運行。曙光E級原型機也將于近期完成項目驗收。
預計在今年8~9月,所有三臺原型機都將完成最終驗收。
目前,這三個E級原型機分布部署在中國六大超算中心:一是天河系列,部署在長沙、廣州和天津三個中心;二是神威系列,部署在無錫和濟南兩地;三是曙光系列,部署在上海和深圳中心。
張云泉告訴新智元,從現(xiàn)在的趨勢來看,未來中國三臺E級超級計算機都會采用眾核加速的體系結構,所不同的只是眾核的架構,一種是異構眾核,一種是主從眾核,還有一種是多核處理器和眾核加速器完全分離的柔性異構眾核。
實際上,現(xiàn)在由于超算競爭異常激烈,很難從普通報道中得知有關E級原型機的規(guī)格指標。
不過,中國頂級的超級計算機研究人員、同時在中山大學和北航擔任教授的錢德沛博士,在2017年11月舉行的SC大會上做了報告《中國在百億億超級計算方面的努力:現(xiàn)狀與前景》(China’s Effort on Exascale Computing: Current Status andPerspectives),其中提到了中國三臺E級原型機的一些細節(jié):
曙光E級原型機:
天河E級原型機:
天河E級原型機技術路線
天河E級原型機的技術指標是:
天河E級原型機內部連接
神威E級原型機:
神威E級計算機原型硬件系統(tǒng)
神威E級原型機計算節(jié)點
同時,新智元還是找到了錢德沛博士在2017年11月做的另一份報告《中國的HPC發(fā)展:簡要回顧和前景》(China’s HPC development: a brief review and perspectives)。其中,比較詳細地介紹了曙光、天河三號和神威三臺E級原型機的信息。
我國三個E級計算機發(fā)展計劃
按照天河的技術路線,未來的E級系統(tǒng)將采用自主的飛騰處理器、Matrix-3000加速器、新一代高速互聯(lián)通信、麒麟操作系統(tǒng)等一系列自主創(chuàng)新技術。
神威E級系統(tǒng)則預計將重點放在國家海洋實驗室的八大領域,提供海洋領域超算服務,包括海洋大數(shù)據、海洋氣象預報、海洋地質研究、海洋藥物、海洋安全、海洋食品等多個國家級任務。
曙光E級系統(tǒng)原型系統(tǒng)采用浸沒式相變冷卻方式,通過把計算部件浸沒在液體中,通過液體氣化蒸發(fā)帶走部件工作產生的熱量,PUE可以達到業(yè)內最低。
美國E級計算機計劃:跳過原型機,直接上!
美國超算研究人員也正在奮起直追。
美國橡樹嶺國家實驗室完成了超級計算機Summit的研制,該系統(tǒng)計算性能將達到200 P,超越了中國的神威太湖之光,重新奪回超算Top 500榜首。
美國橡樹嶺國家實驗室的的超級計算機Summit,目前排名世界第一
其實,美國原本計劃使用峰值180P的Aurora來爭奪世界第一,但由于英特爾負責研制的新Xeon Phil加速器無法按期完成,無奈只好修改合同,直接去研發(fā)2021年完成的百億億次超級計算機A21。
根據計劃,美國將有5臺E級計算機,其中主要跟中日構成競爭的是前三臺:
這張圖屬于美國原定計劃,現(xiàn)在推出時間都往前提了
美國在今年ISC18上公布的E級計算及原型機的相關計劃
目前尚不清楚Frontier與El Capitan系統(tǒng)將由哪些廠商負責交付。不過可以看到,美國的六家芯片大廠應該會兩兩結對,除去已經確定的英特爾與Cray合作開發(fā)A21系統(tǒng),接下來的組合很可能是HPE加IBM以及AMD加英偉達——吻合CPU加GPU的配伍思路。
作為預計2021年問世的美國第一臺E級機,今年2月,E級計算計劃(Exascale Computing Project,ECP)第二屆年會在諾克斯維爾召開,首次詳細披露了下一代美國超級計算機A21的設計方案。
此前,美國能源部同時資助兩臺超級計算機Summit和Sierra的研發(fā),作為未來E級系統(tǒng)研發(fā)的跳板,相當于中國的E級原型機。
這兩臺機器分別采取不同的方法來降低能耗:Summit的制造商IBM和英偉達專注于將CPU與GPU結合在一起,提高復雜視覺仿真等計算的速度和效率。另一方面,Aurora的制造商英特爾和Cray則致力于增加并行的CPU核數(shù),并實現(xiàn)它們之間的快速互連,原計劃是研制性能達到180P。
2015年,美國能源部預計Aurora將在今年完成,第一臺美國E級超算系統(tǒng)將在2023年落地。隨后中國宣布了“第十三個五年計劃”,闡明了2020年底之前實現(xiàn)E級系統(tǒng)的目標。
于是,美國能源部決定跳過Aurora,直接開始研制性能是Aurora五倍的A21。雖然發(fā)布時間推遲到2021年,但由于A21是美國第一臺E級超算系統(tǒng),這意味著美國將比原計劃提前兩年實現(xiàn)E級目標。
有人認為跳過Aurora這個過渡的機器直接研制A21有點冒險,但也有人認為沒有Aurora,美國也完全可以成功研發(fā)E級超算系統(tǒng)。
美國超算研發(fā)路線圖
目前A21的架構細節(jié)仍然嚴格保密。據相關研究人員介紹,A21的架構與以往的機器完全不同。其架構設計將著重降低處理器之間的長距離數(shù)據傳輸?shù)男枨螅瑥亩档拖到y(tǒng)能耗。新機器功耗大約為25至30兆瓦,僅僅是Summit的兩倍左右。
日本的E級超算路:最早明確E級發(fā)展計劃,芯片已經研發(fā)完成
日本其實是最早明確研發(fā)E級計算發(fā)展路線的國家。
2013年12月,日本文部科學省推出百億億次超級計算機研發(fā)項目,旨在保持日本在計算科學和技術領域的領先優(yōu)勢。新的百億億次超級計算機研發(fā)被文部科學省列為“旗艦2020計劃”(Flagship 2020 Project),由日本理化學研究所(RIKEN)的計算科學研究機構(AICS)負責實施。
文部科學省2015年8月公布的2016年預算顯示,該計劃2016年獲得了76億日元的撥款,比前一年的39億日元增加了近一倍。
日本的預定計劃是,2018年完成E級機的制造并開始量產,2019年進行設置和調整,2020年投入運行。
不過,2016年9月,在美國奧斯汀舉行的HPC用戶論壇上,該項目負責人、RIKEN的石川裕表示,正式運行的時間可能會延后1~2年,但并未說明延后的原因。有報道稱,可能是由于半導體設計問題導致的CMOS制造技術尚不成熟,或者是芯片開發(fā)的時間比預期要長。
在今年的ISC 2018上,石川裕介紹了日本E級計算機的研制進展。日本的目標是在2021年初,由富士通研制成功第一臺E級計算機“后京”(Post-K),并部署在RIKEN,速度將是日本現(xiàn)有最快超級計算機“京”(K)的100倍。
石川裕介紹了日本E級計算機的研制進展
今年6月,富士通宣布已完成后京計算芯片原型研制并開始測試,作為首個基于ARMv8-A Scalable Vector Extension (SVE)架構的48核芯片,這款芯片也體現(xiàn)了日本半導體工藝的發(fā)展。
同時,后京的系統(tǒng)軟件環(huán)境也已在部署中,按照日本政府規(guī)劃的9大重點應用領域,部分目標應用亦已在進行調試優(yōu)化。按照目前發(fā)布的進展,日本在2021年實現(xiàn)E級計算的道路上頗為順利。
一位業(yè)內人士向新智元透露,以前日本研制超級計算機“京”的時候,好幾年前就開始宣揚我們要怎么做怎么做,但到了E級機的“后京”,態(tài)度轉了180°,基本不愿透露任何實質信息。
根據日本此前公開的資料顯示,“后京”的研發(fā)秉持四項基本的設計方針:
基于這四項方針,“后京”的開發(fā)將通過系統(tǒng)與應用的協(xié)同設計(Co-design)進行,一是開發(fā)下一代超算系統(tǒng)“后京”,二是面向“后京”的使用開發(fā)相應的應用,以解決革命性新藥開發(fā)、生命科學計算、災害預測、氣象預測、綠色能源系統(tǒng)實用、宇宙演化分析等9項重要的社會和科學問題。
“后京”的開發(fā)分為四個方面:架構開發(fā)、協(xié)同設計推進、系統(tǒng)軟件開發(fā)、應用開發(fā),AICS為此設立了4個專職研發(fā)團隊。
E級超算:硬件先行還是軟件拉動?
中國的超算為人詬病的一個很大原因,就是軟硬發(fā)展的不平衡。硬件速度上去了,但相關的軟件應用跟不上。
但是,這方面的問題也在得到解決。2016年11月,在美國鹽湖城舉行的2016年全球超級計算大會上,中國憑借“千萬核可擴展大氣動力學全隱式模擬”研究成果一舉獲得“戈登•貝爾”獎。該研究由“神威·太湖之光”提供運算支撐,可有效開展全球公里級氣象預報,與國際主流的大氣動力模式相比,計算速度提升近10倍,與2015年獲得戈登•貝爾獎的項目相比,計算效率提升10倍以上。
這是我國超算應用團隊首次獲得有著“超算應用諾貝爾獎”美譽的戈登•貝爾獎,標志著我國科研人員正將超級計算的速度優(yōu)勢轉化為應用優(yōu)勢。
隨后在2017年,由清華大學、國家超級計算無錫中心、山東大學、南方科技大學、中國科技大學、國家并行計算機工程技術研究中心組成的聯(lián)合團隊,基于“神威·太湖之光”的強大計算能力,成功設計并實現(xiàn)了高可擴展性的非線性大地震模擬工具,充分發(fā)揮國產處理器在存儲、計算、通信資源等方面的優(yōu)勢,可以實現(xiàn)高達18.9P的非線性地震模擬,是國際上首次實現(xiàn)如此大規(guī)模下的高分辨率、高頻率、非線性塑性地震模擬,對未來的地震災害救援演習、預防預測等研究具有重要的借鑒意義。“非線性大地震模擬”贏得了2017年戈登•貝爾獎。
天津超算中心也將依托天河三號超級計算機構建超級計算與云計算和大數(shù)據深度融合的高性能計算服務平臺,將在長效高分辨率氣候氣象預報、大規(guī)模航空航天數(shù)值風洞、地震地質研究和油氣能源勘探、腦科學與基因工程等生命科學研究等超大規(guī)模計算與模擬,以及涉及國計民生、信息安全的政務數(shù)據、醫(yī)療衛(wèi)生、基因健康、智慧城市、交通、地理、海洋等的大數(shù)據分析處理領域發(fā)揮強大支撐和平臺作用。
張云泉主任介紹,百億億次超級計算機的最大的問題就是功耗控制,需要在半導體工藝上有很大的突破,才有可能把功耗控制在30兆瓦左右。“如果說功耗控制沒有發(fā)生革命性的降低,以現(xiàn)在的技術去搭建的話,它的功耗可能會達到一百兆瓦,就沒法用了。電費也太貴,1年的電費相當于十億人民幣。所以,國際上的競爭就是看誰有本事在30兆瓦的功耗預算的前提下,能夠造出百億億次超級計算機,這個是目前最大的挑戰(zhàn)。”