隨著天河2號(hào)成為全球運(yùn)算最快的超級(jí)計(jì)算機(jī),并在2015年國(guó)際超級(jí)計(jì)算機(jī)大會(huì)上蟬聯(lián)5連冠,國(guó)防科大和飛騰CPU逐漸走進(jìn)我們的視野。
國(guó)防科大研究計(jì)算機(jī)技術(shù)起步于50年代末,50多年來(lái),國(guó)防科大在心酸和淚水、鮮花與掌聲交織之中,艱苦奮斗,自強(qiáng)不息,一步一個(gè)腳印地走出了從模仿到超越的旅程。
一、國(guó)防科大
國(guó)防科大是國(guó)防部和教育部雙重領(lǐng)導(dǎo)下的國(guó)家重點(diǎn)綜合性大學(xué),前身是1953年創(chuàng)建于黑龍江省的哈爾濱市軍事工程學(xué)院。1970年學(xué)校主體南遷長(zhǎng)沙,改名為長(zhǎng)沙工學(xué)院,1978年改建為國(guó)防科技大學(xué)。
國(guó)防科大現(xiàn)有10個(gè)學(xué)院,下設(shè)40多個(gè)系、所、實(shí)驗(yàn)室,其中有國(guó)家重點(diǎn)實(shí)驗(yàn)室4個(gè)、教育部重點(diǎn)實(shí)驗(yàn)室1個(gè),共有10個(gè)國(guó)家重點(diǎn)學(xué)科處于國(guó)內(nèi)領(lǐng)先水平。在2007-2009年全國(guó)一級(jí)學(xué)科整體水平評(píng)估中,計(jì)算機(jī)科學(xué)與技術(shù)、信息與通信工程、系統(tǒng)科學(xué)、光學(xué)工程、管理科學(xué)與工程、航空宇航科學(xué)與技術(shù)等6個(gè)學(xué)科進(jìn)入前5名。
(國(guó)防科大)
二、國(guó)防科大計(jì)算機(jī)學(xué)院
計(jì)算機(jī)學(xué)院起步于1958年,1966年成立全國(guó)第一個(gè)電子計(jì)算機(jī)系,1971年擴(kuò)建成計(jì)算機(jī)系兼研究所,1999年成立計(jì)算機(jī)學(xué)院。學(xué)院下設(shè)計(jì)算機(jī)科學(xué)與技術(shù)系、網(wǎng)絡(luò)工程系、計(jì)算機(jī)研究所、軟件研究所、微電子與微處理器研究所、網(wǎng)絡(luò)與信息安全研究所、并行與分布處理國(guó)家重點(diǎn)實(shí)驗(yàn)室和銀河計(jì)算機(jī)工廠。
計(jì)算機(jī)學(xué)院是研制國(guó)產(chǎn)計(jì)算機(jī)的老牌單位,在陳賡大將任哈軍工校長(zhǎng)期間,就開(kāi)始著手計(jì)算機(jī)研發(fā)。在上世紀(jì)60-70年代,先后研發(fā)出安裝有分時(shí)操作系統(tǒng)和匯編語(yǔ)言、FORTRAN語(yǔ)言及標(biāo)準(zhǔn)程序庫(kù)的441B系列計(jì)算機(jī),該型計(jì)算機(jī)在軟件和硬件方面實(shí)現(xiàn)全部國(guó)產(chǎn)化,共生產(chǎn)100余臺(tái),在科研和教學(xué)領(lǐng)域穩(wěn)定運(yùn)行10年以上。
在80年代后又先后研發(fā)了銀河系列、天河系列超級(jí)計(jì)算機(jī),技術(shù)底蘊(yùn)深厚。共獲部委級(jí)三等獎(jiǎng)以上科技進(jìn)步獎(jiǎng)500多項(xiàng),其中國(guó)防科技成果特等獎(jiǎng)1項(xiàng)、國(guó)家發(fā)明二等獎(jiǎng)1項(xiàng)、國(guó)家科技進(jìn)步一等獎(jiǎng)6項(xiàng)、二等獎(jiǎng)13項(xiàng)、部委級(jí)科技進(jìn)步一等獎(jiǎng)82項(xiàng)、二等獎(jiǎng)151項(xiàng)。在國(guó)家5次教學(xué)成果評(píng)獎(jiǎng)中,學(xué)院獲得特等獎(jiǎng)1次,一等獎(jiǎng)2次,二等獎(jiǎng)1次。“計(jì)算機(jī)體系結(jié)構(gòu)”、“軟件工程”、“編譯原理”、“計(jì)算機(jī)網(wǎng)絡(luò)”、“計(jì)算機(jī)原理”和“操作系統(tǒng)”6門(mén)課程被評(píng)為“國(guó)家級(jí)精品課程”。《計(jì)算機(jī)前沿領(lǐng)域的研究》獲全國(guó)圖書(shū)一等獎(jiǎng),《編譯原理》獲國(guó)家優(yōu)秀教材一等獎(jiǎng),《并行算法》獲第七屆中國(guó)圖書(shū)獎(jiǎng)。
三、善于“借鑒”的國(guó)防科大
因80年代迷信“造不如買(mǎi)、買(mǎi)不如租”、“市場(chǎng)換技術(shù)”等理論,國(guó)防科大放棄了自主芯片的研發(fā)轉(zhuǎn)而大量外購(gòu)國(guó)外芯片。
在80、90年代,國(guó)防科大的銀河1、銀河2、銀河3超算都沒(méi)有中國(guó)芯。
因此,研發(fā)自己的CPU就成為國(guó)防科大的一項(xiàng)緊迫任務(wù)。相對(duì)于從零開(kāi)始自主研發(fā),“借鑒”國(guó)外的產(chǎn)品,將技術(shù)消化吸收后,站在巨人的肩膀上顯然擁有更高的研發(fā)效率,而且國(guó)防科大科研任務(wù)多、時(shí)間緊、任務(wù)重、資金少、科研力量有限,當(dāng)年在不考慮商業(yè)應(yīng)用,主攻軍用和超算領(lǐng)域的情況下,飛騰“借鑒”國(guó)外產(chǎn)品自然成為國(guó)防科大計(jì)算機(jī)學(xué)院的必然選擇。
之后,國(guó)防科大和一直深耕Mips和Alpha并擴(kuò)展了指令集,建設(shè)自主體系的龍芯和申威不同,飛騰一直沒(méi)有一條很明確的技術(shù)路線,先后仿制過(guò)德儀、INTEL、SUN等公司的產(chǎn)品,前后產(chǎn)品基本沒(méi)有多大延續(xù)性。
飛騰這種路線雖然在發(fā)展初期占優(yōu)勢(shì),并能較短的時(shí)間內(nèi)拿出性能不錯(cuò)的芯片,還能鍛煉一批技術(shù)人才,但是因?yàn)槿狈夹g(shù)延續(xù)性和技術(shù)積累,很容易導(dǎo)致后勁不足和難以構(gòu)建自己的生態(tài)體系。
舉例來(lái)說(shuō),國(guó)防科大先后仿制過(guò)德州儀器的DSP、Intel的安騰和Pentium MMX,在imagine基礎(chǔ)上研制過(guò)流處理器,仿制過(guò)UltraSPARC T2,也有自主研發(fā)的飛騰ARM處理器和矩陣2000(DSP),先后換了X86、Epic(VLIW)、SPARC、ARM四個(gè)指令集,雖然這些產(chǎn)品都屬于銀河飛騰系列,但是彼此之間完全沒(méi)有什么關(guān)系。
(天河1號(hào))
四、飛騰(Sparc)與天河2號(hào)
飛騰(Sparc)有飛騰1000和飛騰1500兩款產(chǎn)品。Sun在被甲骨文收購(gòu)前將UltraSPARC T2開(kāi)源,國(guó)防科大遂對(duì)其進(jìn)行仿制和改良,成功研發(fā)出飛騰1000和飛騰1500兩款產(chǎn)品,并用于天河超算中作為計(jì)算節(jié)點(diǎn)前端處理器。
飛騰1000為65nm工藝制造,八核64線程,晶體管數(shù)目達(dá)到3.5億個(gè)。芯片主頻800MHz-1GHz,擁有3個(gè)HTT直連總線接口,4個(gè)獨(dú)立的DDR3內(nèi)存通道,帶寬達(dá)到32GB/s,8個(gè)PCIE 2.0通道。
飛騰1500是對(duì)飛騰1000的改進(jìn)升級(jí),是一款40nm的16和芯片,主頻也提升到1.8G,最大功耗65W,雙精浮點(diǎn)144G。
據(jù)統(tǒng)計(jì),天河1號(hào)使用了2048片飛騰1000作為計(jì)算節(jié)點(diǎn)前端處理器,天河2號(hào)使用了4096片飛騰1500作為計(jì)算節(jié)點(diǎn)前端處理器。
相對(duì)于天河2大量采用的Intel芯片,為天河2號(hào)55Pflops超強(qiáng)運(yùn)算能力打下堅(jiān)實(shí)基礎(chǔ)的架構(gòu)設(shè)計(jì)——高效異構(gòu)協(xié)同計(jì)算技術(shù)、高效易用的用戶編程環(huán)境、網(wǎng)絡(luò)連接等方面技術(shù)能力才更值得我們關(guān)注。
四、飛騰(ARM)
自2012年開(kāi)始,飛騰選擇加入ARM陣營(yíng),雖然在發(fā)展權(quán)上會(huì)受制于ARM,還要花費(fèi)不菲的ARM指令集授權(quán)費(fèi),但也有可以兼容AA體系的軟件生態(tài)上的優(yōu)勢(shì)。
目前,飛騰(ARM)有“火星”和“地球”2款產(chǎn)品。
“地球”是一款4核CPU,微結(jié)構(gòu)是國(guó)防科大自主研發(fā)的“小米”,是一款桌面CPU。“火星”的微結(jié)構(gòu)也是“小米”,“火星”擁有64核心,主頻達(dá)2G,制程工藝28nm,功耗120W,理論浮點(diǎn)計(jì)算能力是512G,擁有32M二級(jí)緩存、128M三級(jí)緩存和16通道內(nèi)存,205G/s理論內(nèi)存帶寬。芯片上還有32個(gè)PCIe 3.0通道。
雖然“火星”單核性能較弱,但依靠核心數(shù)量?jī)?yōu)勢(shì),在Spec 2006跑分中,多核整數(shù)分?jǐn)?shù)達(dá)672,浮點(diǎn)分?jǐn)?shù)585,足以和Xeon E5-2699v3相媲美。
當(dāng)然,目前的“小米”還無(wú)法與Intel的ivy、haswel相比,即使和龍芯GS464E也有一定差距。但在ARM陣營(yíng)中,根據(jù)Spec 2006測(cè)試成績(jī),單核性能是強(qiáng)于ARM的A57的。在功耗方面和高通810做參照的話,28nm制程,2G主頻功耗僅僅2W不到,顯然比同樣2G主頻,20nm的A57功耗要小不少。
因此,“小米”顯然是一個(gè)優(yōu)于ARM公版設(shè)計(jì)的微結(jié)構(gòu)。
國(guó)防科大雖然有很強(qiáng)的技術(shù)研發(fā)能力,但公關(guān)營(yíng)銷(xiāo)、市場(chǎng)推廣能力遠(yuǎn)不能和海思、展訊相提并論。想要在ARM陣營(yíng)立足,10%-20%的性能優(yōu)勢(shì)沒(méi)有太多意義,市場(chǎng)營(yíng)銷(xiāo)能力強(qiáng)弱、芯片搭載平臺(tái)穩(wěn)定性和平臺(tái)的數(shù)量等因素才是關(guān)鍵。畢竟,用ARM公版微結(jié)構(gòu)照樣能在市場(chǎng)上大賣(mài)。
國(guó)防科大真要想將自主研發(fā)的微結(jié)構(gòu)推廣出去,親自上陣賣(mài)芯片顯然是以己之短,攻敵之長(zhǎng)。正途是和展訊、海思等購(gòu)買(mǎi)ARM微結(jié)構(gòu)的IC設(shè)計(jì)公司加強(qiáng)合作,向展訊、海思推銷(xiāo)國(guó)防科大研發(fā)的IP核,使其能集成到展訊、海思的SOC中去。
五、GPU
國(guó)內(nèi)做GPU的有兩家公司,一家是兆芯,技術(shù)源自被VIA收購(gòu)的美國(guó)S3公司;另一家是和國(guó)防科大有很深淵源的景嘉微電子(當(dāng)然,十有八九是國(guó)防科大的馬甲)。
景嘉微電子是國(guó)家火炬計(jì)劃重點(diǎn)高新技術(shù)企業(yè),和國(guó)防科大有很深的淵源。公司位于長(zhǎng)沙,公司的三位創(chuàng)始人都畢業(yè)于國(guó)防科大,而且最初的一批骨干成員也大多來(lái)自國(guó)防科大。目前有員工300余人,共申請(qǐng)國(guó)家發(fā)明專(zhuān)利83項(xiàng),其中已授權(quán)專(zhuān)利33項(xiàng)。產(chǎn)品涵蓋芯片設(shè)計(jì)、板卡、整機(jī)和小型系統(tǒng)等,神舟飛船、軍用戰(zhàn)機(jī)等都曾搭載有景嘉微的產(chǎn)品。
2014年,景嘉微年產(chǎn)值超過(guò)2億元,凈利潤(rùn)達(dá)7600余萬(wàn)元,目前最好的產(chǎn)品是JM5400。雖然性能有限,但性能參數(shù)和已公開(kāi)的資料怎么看都像軍用GPU。
軍用GPU更看重穩(wěn)定性和可靠性,性能較弱。因此,就不多介紹了。
下圖為景嘉微的發(fā)展計(jì)劃。一般這樣的小公司三年以后的計(jì)劃基本可以無(wú)視,但景嘉微的背景使本人對(duì)它多了幾分期待。另外,景嘉微和龍芯是合作伙伴,5年后,沒(méi)準(zhǔn)市場(chǎng)上會(huì)出現(xiàn)龍芯CPU或飛騰CPU+景嘉微GPU的組合。
六、天河2A和矩陣2000
在ISC 2015發(fā)布會(huì)上,國(guó)防科大公布了天河2A升級(jí)方案,用矩陣2000(DSP)替換被美國(guó)政府禁售的PHI。
DSP是數(shù)字信號(hào)處理器,廣泛用于雷達(dá)、移動(dòng)通訊、衛(wèi)星導(dǎo)航、高清電視、網(wǎng)絡(luò)攝像、可視電話、數(shù)碼相機(jī)、圖像與指紋識(shí)別、網(wǎng)絡(luò)控制、數(shù)字硬盤(pán)等領(lǐng)域。
國(guó)防科大在DSP方面有較深厚的技術(shù)積累。國(guó)防科大早在2004年就研發(fā)過(guò)一款嵌入式數(shù)字信號(hào)處理器YHFT-Q,該處理器用130nm工藝制造,主頻350MHz,雙精浮點(diǎn)11.2Gflops,功耗2.99W。今年發(fā)布的矩陣2000采用40nm制程工藝,擁有16核,主頻1G,雙精浮點(diǎn)2.4T,功耗為200W。
根據(jù)國(guó)防科大公布的資料,因保留了天河2號(hào)的主體I/O結(jié)構(gòu),計(jì)算節(jié)點(diǎn)處理器依舊使用E5-2692 V2,計(jì)算節(jié)點(diǎn)增加到18000個(gè),按照一個(gè)計(jì)算節(jié)點(diǎn)需要2個(gè)E5和3個(gè)加速器來(lái)計(jì)算,天河2A需要36000片E5和54000片矩陣2000,僅54000片矩陣2000的理論浮點(diǎn)峰值就可以達(dá)到129.6Pflops。
在美國(guó)對(duì)華禁售用于超算的至強(qiáng)PHI后,國(guó)防科大接連對(duì)外發(fā)布足以替代E5的“火星”和可以替代至強(qiáng)PHI的矩陣2000,既是向美國(guó)禁售至強(qiáng)PHI的亮劍,也是公開(kāi)了天河超算將來(lái)的發(fā)展方向——矩陣2000替代PHI,走GPDSP路線,創(chuàng)建超算GPDSP體系。
甚至在不遠(yuǎn)的將來(lái),不排除會(huì)用“火星”或者“火星”的下一代產(chǎn)品替代E5,實(shí)現(xiàn)天河超算軟件和硬件的全面國(guó)產(chǎn)化。
走GPDSP路線的難點(diǎn)不是芯片,而是軟件堆棧——包括GPDPS驅(qū)動(dòng)程序、操作系統(tǒng)、編譯器、數(shù)學(xué)庫(kù)等,這是一項(xiàng)工程量巨大的工作。
祝國(guó)防科大好運(yùn)!
七、小結(jié)
相比于龍芯中科和總參56所,國(guó)防科大計(jì)算機(jī)學(xué)院就少了幾分定力和毅力。在技術(shù)路線上存在朝令夕改、朝秦暮楚的問(wèn)題,客觀上使飛騰沒(méi)能像龍芯、申威那樣走出一條自己的路埋下了伏筆。
白璧微瑕,瑕不掩瑜。國(guó)防科大計(jì)算機(jī)學(xué)院技術(shù)成就可謂碩果累累,本文介紹的關(guān)于飛騰、天河超算、GPU僅為冰山一角。
自進(jìn)入21世紀(jì)以來(lái),國(guó)防科大以“借鑒”國(guó)外先進(jìn)產(chǎn)品為突破口,學(xué)習(xí)技術(shù)、積攢內(nèi)功,并在擁有一定技術(shù)實(shí)力后設(shè)計(jì)出了“火星”和矩陣2000等擁有自主知識(shí)產(chǎn)權(quán)的產(chǎn)品,在學(xué)習(xí)借鑒用GPU和眾核處理器做加速器后,在超算領(lǐng)域探索出GPDSP道路,實(shí)現(xiàn)了從模仿到自主創(chuàng)新的飛躍。