2016年初,在北京亦莊召開的“高性能異構計算及網絡安全研討會”上,華夏芯(北京)通用處理器技術有限公司即將推出全球首款完全支持異構系統架構(HSA)的處理器。
先來看看媒體是怎么說的(由于篇幅冗長,為方便閱讀,筆者就摘錄重點以供參考)
據《中國電子報》報道說,“處理器IP核與生態系統兩方面問題的解決,將使中國自主處理器產業有望在下一代異構計算時代,取得更快速的發展,趕上國際先進水平。”摘錄如下:
1、華夏芯的突破表明我國在新一代異構計算上取得重大進展,有望在原本相對空白的處理器IP(知識產權)核授權領域打破國外壟斷,徹底改變中國處理器產業的核心知識產權基本依賴于國外許可的被動局面。
2、從軟件角度看,應用開發將變得輕松,任何程序都不必費心考慮不同處理器內核之間的存儲差異。這將給計算性能以革命性的提高。
3、是全球首次推出完全支持HSA標準的CPU+GPU+DSP的處理器IP核平臺,它從指令集、微架構到工具鏈具有完全自主知識產權。同時,華夏芯還可進行SoC定制設計服務。這將有效改善國產IP核設計及許可上的短板。
那么,什么是異構系統架構?《中國電子報》的報道有多少真材實料,又有多少水分呢?
什么是異構計算?
異構計算主要是指使用不同類型指令集(X86、ARM、MIPS、POWER......)和體系架構的計算單元(CPU、GPU、DSP、ASIC、FPGA......)組成系統的計算方式。
舉例來說,AMD的APU其實就屬于異構計算。
【編者注:AMD,即超微半導體公司。AMD公司專門為計算機、通信和消費電子行業設計和制造各種創新的微處理器(CPU、GPU、APU、主板芯片組、電視卡芯片等)、閃存和低功率處理器解決方案,是目前業內唯一一個可以提供CPU、GPU、主板芯片組三大組件的半導體公司。】
異構計算主要的優點有:
一是可以讓各個計算單元執行自己最擅長的任務。術業有專攻,CPU、GPU、DSP、FPGA等計算單元各有所長,在引入特定計算單元,讓計算系統變成混合結構,就能讓CPU、GPU、DSP、FPGA執行自己最擅長的任務,并相對于同構計算可能有一定性能優勢,或性能功耗比優勢。
二是可以避免顯式拷貝。最新的異構計算理論上要求實現CPU、GPU、DSP等計算單元實現內存統一尋址,使CPU、GPU等計算單元可以共享內存,不必將數據復制一份到對方的內存區域中。
異構計算并非新概念,AMD、ARM等公司早已成立異構系統架構基金會 (HSA Foundation)。另外,異構計算在超算領域已經有一定的應用,而且已經有取代同構計算的發展趨勢。
舉例來說,美國泰坦(每個計算節點由1個AMD Opteron 6274處理器和1個NVIDIA Tesla K20加速器組成),中國天河2號(每個計算節點由2個E5和3個Xeon Phi組成)。中國正在升級或建設的3臺100P超算也都采用異構計算。
相對于上述提到泰坦和天河2號,由于CPU和加速器無法共享內存,會因為需要顯式拷貝而導致性能損失,最新的異構系統架構的優勢在于可以發展成統一的內存編制——在理論上,可以實現CPU、GPU、DSP等計算單元實現內存統一尋址,使各個計算單元交互數據時,不再需要將自身內存區域中現有的數據復制一份到對方的內存區域中,而是可以直接通過相同的地址訪問到,在內存和顯存的設計科學合理的前提下,實現性能提升。
另外,在編程方面,可以避免顯式拷貝,使程序員們不用介入不同計算單元的內存管理,能有效降低編程的繁瑣程度。
當然,理想很豐滿,現實很骨感——不同核心直接cache級別的互通始終是HSA架構無法攻克的難關——雖然AMD的APU通過將CPU和GPU集成到一個芯片上實現了共享內存。但CPU和GPU的Cache卻還沒有做到統一,不同核心直接cache級別的互通,而這也是HSA架構最大的技術難點(CPU,GPU,DSP的緩存模型不同)。即便AMD等廠商給HSA畫了非常美好的藍圖,但就現階段而言,HSA的優勢并不大。
華夏芯的技術究竟如何?
華夏芯未必能實現Cache級別的互通。
在HSA方面,AMD顯然是最有發言權的廠商之一,但其APU也只實現了CPU+GPU,而且實現了內存共享,但CPU和GPU的Cache卻還沒有做到統一,而華夏芯言之鑿鑿,“該產品在架構層面成功整合了CPU、GPU、DSP,實現了異構多核的內存統一尋址,使不同內核真正無縫地緊密聯系在一起,”一家初出茅廬公司的技術水平已經超越AMD這樣的老牌IC設計公司了,這實在令人難以置信,不知道AMD看到這段文字做何感想。
華夏芯所謂“自主知識產權”存在水分
根據《中國電子報》的報道,“華夏芯正在開發并即將推出的‘統一處理器平臺’是全球首次推出完全支持HSA標準的CPU+GPU+DSP的處理器IP核平臺,它從指令集、微架構到工具鏈具有完全自主知識產權。”這段文字所蘊藏的消息實在讓人難以置信。
雖然國內IC設計廠商推出了不少產品,但大多都是購買購買國外 IP核授權,或者就是國外芯片的馬甲,能做自主設計CPU或GPU或DSP的單位如鳳毛麟角,更遑論同時具備三者的設計能力。
因此,筆者是不太相信一家在此之前從未聽聞,也沒有什么技術積累的廠商,能橫空出世,并突然間同時具備CPU、GPU、DSP的設計能力。
而自主指令集雖然實現難度并不大,比如深圳中微電就采用了自主指令集,但是由于不可能兼容現有的軟件生態,在商業化方面基本不具備市場前景。在黨政軍市場早已被龍芯、申威、飛騰等自主芯片瓜分完畢,武器裝備、人造衛星、航天設備等特殊領域的嵌入式芯片也已“名花有主”的情況下,采用自主指令集既不具備商業市場前景,也無法在黨政軍市場贏得一席之地。
加上領導非常喜歡“自主知識產權”的因素,所謂“從指令集、微架構到工具鏈具有完全自主知識產權”很有可能有相當大的水分。
宣傳言過其實
就現階段而言,HSA的優勢并不明顯,還遠遠達不到“給計算性能以革命性的提高”的地步。
而且就軟件而言,雖然APU統一尋址能方便編程,能使程序員們不用介入繁瑣的CPU-GPU內存管理,但《中國電子報》對華夏芯的報道中稱“任何程序都不必費心考慮不同處理器內核之間的存儲差異”——消除CPU、GPU、DSP、ASIC、FPGA等計算單元之間的存儲差異,即便是AMD也只能表示:“臣妾做不到啊!”
國內在異構計算方面做得如何?
雖然異構計算是老概念了,但由于現階段并不具備多少比較優勢,因而只在超算等為數不多的領域取得了明顯的成績,有取同構計算而代之的趨勢。
相對于華夏芯這樣的處于紙面上的產品,上海高性能集成電路設計中心設計的國產眾核芯片則是比較成功的例子,該芯片有數個主核心和兩百余個從核心,主核心主要負責邏輯運算,兩百余個從核心可以使芯片擁有非常高的理論雙精浮點性能和良好的性能功耗比(小道消息稱10-15G/W),其峰值雙精度浮點運算速度超過每秒3萬億次(3TFlops),完全追平了Intel第二代Xeon Phi(也是Intel最好的眾核芯片)。
結合《我國首個研究完全自主知識產權的異構計算處理器實驗室破繭》的新聞看,華夏芯通用處理器技術有限公司目前還處于草創階段,其官方網站也非常簡陋,除“成為國內嵌入式處理器領域擁有自主知識產權的一流設計企業”表示華夏芯主攻嵌入式處理器外,基本沒有任何有價值的信息,華夏芯現在有可能依舊處于草臺班子階段。加上“從指令集、微架構到工具鏈具有完全自主知識產權”需要非常深厚的技術積累,并非朝夕之間可以鑄就。
筆者斗膽推測,所謂“是全球首次推出完全支持HSA標準的CPU+GPU+DSP的處理器IP核平臺,它從指令集、微架構到工具鏈具有完全自主知識產權”有很大的水分,即將推出的產品很有可能就是一款集成了CPU+GPU+DSP的SOC,以目前華夏芯的公開資料和媒體的相關報道,華夏芯頗有套取政策之利的嫌疑。