精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:服務器技術(shù)專區(qū) → 正文

【工程師筆記】第七期:Xeon Phi要自我互連,CPU靠邊站

責任編輯:cres 作者:唐僧 |來源:企業(yè)網(wǎng)D1Net  2016-07-25 15:44:27 本文摘自:戴爾企業(yè)級解決方案

做技術(shù)的朋友可能有過類似這樣的感覺——每天都會遇到新的問題,或者學到新的知識。然而一個人的時間和精力畢竟有限,不是所有的崗位都能做到總是親力親為,每人最擅長的領域也各不相同。為了使工程師自己踩過的坑、那些實用的心得體會也能給大家?guī)韼椭呀?jīng)驗記錄和分享出來就顯得尤為可貴,這就是我們開設《工程師筆記》專欄的目的。
 
Xeon Phi要自我互連,CPU靠邊站
 
在《從260核異構(gòu)申威看HPC Top500縮影》一文中,我給大家介紹過在最新的超算榜單上為國爭光的“神威太湖之光”。而在同一次大會上,Intel也正式發(fā)布了代號為Knights Landing的新一代Xeon Phi Processor x200(注意:不再是coprocessor/協(xié)處理器了)。
 
 
 
我們知道此前的Xeon Phi(至強融核)協(xié)處理器家族包括3100、5100和7100系列,都是像GPU那樣通過PCIe x16插槽安裝在x86服務器上。Xeon Phi x100有板載內(nèi)存(類似于NVIDIA/AMD的顯存),但訪問系統(tǒng)主內(nèi)存就要繞道CPU的內(nèi)存控制器,從而影響到效率。
 
而在上圖中間的服務器節(jié)點里,我們已經(jīng)看不到傳統(tǒng)的Xeon CPU,取而代之的就是“Bootable”(可獨立運行)的Xeon Phi Processor。左右兩邊是兩種不同的Xeon Phi x200,其中右邊的多伸出一個金手指,整合了Intel Omni-Path Fabric(OPA,又稱硅光互連)高速網(wǎng)絡。
 
 
Xeon Phi 7200系列的核心數(shù)有64、68和72三種,主頻1.3-1.5GHz,擁有16GB 高帶寬MCDRAM片上高速內(nèi)存(類似于HBM、HCM),并支持最大384GB DDR4內(nèi)存。Xeon Phi 7200的基礎功耗有215W和245W兩種,如果是結(jié)尾帶“F”支持Omni-Path的型號會增加15W Fabric功耗。
 
 
這個照片應該是Intel的參考平臺,尺寸上大致符合2U 4節(jié)點的密度,在Xeon Phi Processor兩側(cè)有6個DDR4內(nèi)存插槽。用紅圈標出的部分應該就是將Omni-Path網(wǎng)絡引出機箱的連接器件。
 
 
至本文截稿之時,官網(wǎng)上我還沒找到關于Xeon Phi x200的詳細資料,不過早在去年底翻譯自國外的新聞中已經(jīng)有過不錯的介紹。
 
如上圖,“Self Boot Socket”的Knights Landing除了DDR4內(nèi)存控制器之外,還可以提供36個PCIe Gen3 lane,感覺是移植了Xeon CPU的uncore部分設計。不過,提供2個Omni-Path 100Gb/s網(wǎng)口的型號就少了2個PCIe x16,讓我覺得這一代產(chǎn)品的片上OPA互連控制器走的還是PCIe?最右邊的PCIe插卡形態(tài),去掉了DDR內(nèi)存通道,能不能不要那個PCH南橋呢?
 
 
 
Xeon-phi-processor-block-diagram——來自Intel網(wǎng)站
 
上下兩張圖可以結(jié)合起來看。我數(shù)了一下紅色Processing Tile的數(shù)量是38個,如此則該架構(gòu)設計應該支持最多76個核心,目前限制在72個可能是為了保證良品率,或者功耗考慮?
 

 
根據(jù)右邊的解釋,每個“tile”中有2個Core共享1MB L2 Cache,每個Core支持4線程并包含2個AVX-512矢量單元(浮點計算應該就是靠它來進行的)。Intel還提到了這些Core是基于Atom處理器內(nèi)核,記得之前還有一種說法是P54C。P54C即當年Intel Pentium 75-166的核心代號,1997年我自己的第一臺電腦用的就是奔騰133。
 

 
在2011年春季北京IDF上,我曾經(jīng)看到這套由微服務器廠商SeaMicro打造的高密度系統(tǒng),展板上介紹在10U機箱內(nèi)容納了256個雙核Atom,當時負責展臺的朋友也提到了P54C。不知大家有沒有覺得神威太湖之光的節(jié)點布局有點像這個?
 
 
我猜測這個系統(tǒng)很早就開始用于預研今天的Xeon Phi Processor,當然此時它還談不上芯片集成度和成本效益。從照片中看每顆Atom旁邊應該都有一顆南橋(當時還不是SoC),內(nèi)存等可能在PCB背面,4顆印著SeaMicro的芯片估計是用于互連。
 
不同的AVX Boost頻率與整數(shù)/浮點單元配比
 
 
撰寫上一篇《工程師筆記:一項Xeon E5-2600 v4測試數(shù)據(jù)的背后》的過程中,在Dell的Solutions Performance Analysis文檔中我看到了以上規(guī)格表,其中有non-AVX和AVX單元不同的TurboBoost超頻頻率。讓我們放大來看一下:
 
 
對于所有核心一起工作時的TurboBoost,non-AVX的頻率比AVX要高,而最大(少數(shù)核心工作)TurboBoost頻率有些型號的CPU也存在差別。
 
 
上圖來自Intel資料,描述了Xeon E5v4(Broadwell)的一點改進。在此之前如果AVX和non-AVX負載在不同Core上混合運行,只能統(tǒng)一跑在兩者中較低的TurboBoost頻率上。而在Xeon E5v4上,則運行AVX的Core頻率不會降低到其它Core的TurboBoost水平。
 
我有個理解不知是否準確:由于用途的原因,整數(shù)/浮點單元的設計偏重與配比是Xeon Phi Processor與Xeon CPU的重要區(qū)別。至于Intel為什么沒有進一步像申威26010那樣“將MPE(管理單元)減少到4個來搭配256個CPE(計算單元)”?我覺得是考慮到通用性,畢竟Xeon Phi仍屬于x86指令集的一個擴展。
 
服務器平臺——SuperMicro
 
目前正式發(fā)布支持Xeon Phi Processor x200服務器產(chǎn)品的公司還不多,其中包括SuperMicro的主板和準系統(tǒng)(就是加個塔式機箱),或許只是先出個通用平臺還沒有太多特點。
 
 
SuperMicro K1SPA/E (-T) 主板示意圖,可以看到“巨大”的LGA-3647 CPU插座,據(jù)了解下一代Xeon E5可能也會用這個Socket。
 
 
 
上面是SuperMicro這款主板的結(jié)構(gòu)圖。涉及PCH 612的部分與傳統(tǒng)Xeon服務器并沒有明顯的不同;除了內(nèi)存通道之外,從處理器引出的PCIe x16 Gen3插槽也許不再支持拆分成x8或者x4,因為Xeon Phi的定位就是HPC,除了高速網(wǎng)絡互連應該啥也不缺了。
 
Dell PowerEdge C6320p:可選IB和Omni-Path
 
戴爾的這款PowerEdge C6320p,可以理解為是在2U 4節(jié)點機箱基礎上將C6320 Xeon E5計算節(jié)點換成了Xeon Phi Processor節(jié)點。它比較接近前面我們列出的Intel參考平臺,具備計算密度并適合大規(guī)模部署。
 
 
可能是由于初版資料,規(guī)格表中Xeon Phi Processor 72XX不支持的QPI還沒來得及修改徹底。C6320p有幾種硬盤/閃存支持選項,提供戴爾統(tǒng)一的iDRAC8服務器管理,聽說可以直接安裝Red Hat企業(yè)版Linux,具體注意事項有待后續(xù)確認。不過為了發(fā)揮AVX-512計算單元的能力,還是需要運行相應的編譯好的程序。
 
關于集成單端口Mellanox ConnectX-4 100GbE網(wǎng)卡這個可選項,為什么不是InfiniBand EDR呢?其實該公司近幾年對以太網(wǎng)的支持也不錯,可以在同樣的硬件上實現(xiàn)兩種網(wǎng)絡支持,比如EoIB這樣的方式。
 
上圖來自戴爾網(wǎng)站,可見這個100Gb網(wǎng)口應該是支持IB的。據(jù)了解PowerEdge C6320p也做好了支持Omni-Path的準備,除了現(xiàn)在可以使用Intel Omni-Path Host Fabric Adapter 100 Series PCIe網(wǎng)卡之外,等今年四季度Xeon Phi Processor 72xxF推出之后,像Intel參考平臺中那樣將Omni-Path引出機箱的連接器件也可以使用。
 
InfiniBand和Omni-Path誰會勝出?
 
自從Intel收購了QLogic IB業(yè)務和Cray的部分HPC互連技術(shù)之后,就開始醞釀著后續(xù)的戰(zhàn)略。他們認為IB網(wǎng)絡的成本在HPC系統(tǒng)中占比過高,在用戶投資不變的情況下會影響到Intel CPU等的出貨量。不過問題是,Intel到底是想賣CPU送網(wǎng)絡呢,還是將CPU賣得更貴?
 
來自Mellanox的反擊大概是這樣說的:“Omni-Path缺乏像IB那樣的硬件卸載能力,使網(wǎng)絡對CPU的占用率提高,變相導致需要買更高端的CPU,而從用戶TCO的角度來看反而不劃算。”下面是他們給出的一些對比數(shù)字。
 
 
 
以上圖表僅供參考,因為在Intel的宣傳資料中您很可能會看到另外一些不同的測試數(shù)字。
 
 
True Scale就是當初QLogic的40Gb/s InfiniBand產(chǎn)品線,可以看出100Gb/s的Intel Omni-Path在端口延時、發(fā)包速率上的優(yōu)勢。既然是在IB技術(shù)上發(fā)展而來,Omni-Path可能需要一個成熟的過程,但我不認為有太大的困難。
 
 
Intel還列出了交換機方面的一些優(yōu)勢。比如Edge(邊緣)交換機48口比IB的36口多,服務器節(jié)點可以不通過邊緣交換機直連Director(導向器)等。
 
關于HPC網(wǎng)絡方面的最終戰(zhàn)局,我覺得要看Intel Omni-Path怎么個賣法。如果未來某一代CPU/Xeon Phi Processor無論你用不用全都集成的話……



關鍵字:服務器

本文摘自:戴爾企業(yè)級解決方案

x 【工程師筆記】第七期:Xeon Phi要自我互連,CPU靠邊站 掃一掃
分享本文到朋友圈
當前位置:服務器技術(shù)專區(qū) → 正文

【工程師筆記】第七期:Xeon Phi要自我互連,CPU靠邊站

責任編輯:cres 作者:唐僧 |來源:企業(yè)網(wǎng)D1Net  2016-07-25 15:44:27 本文摘自:戴爾企業(yè)級解決方案

做技術(shù)的朋友可能有過類似這樣的感覺——每天都會遇到新的問題,或者學到新的知識。然而一個人的時間和精力畢竟有限,不是所有的崗位都能做到總是親力親為,每人最擅長的領域也各不相同。為了使工程師自己踩過的坑、那些實用的心得體會也能給大家?guī)韼椭呀?jīng)驗記錄和分享出來就顯得尤為可貴,這就是我們開設《工程師筆記》專欄的目的。
 
Xeon Phi要自我互連,CPU靠邊站
 
在《從260核異構(gòu)申威看HPC Top500縮影》一文中,我給大家介紹過在最新的超算榜單上為國爭光的“神威太湖之光”。而在同一次大會上,Intel也正式發(fā)布了代號為Knights Landing的新一代Xeon Phi Processor x200(注意:不再是coprocessor/協(xié)處理器了)。
 
 
 
我們知道此前的Xeon Phi(至強融核)協(xié)處理器家族包括3100、5100和7100系列,都是像GPU那樣通過PCIe x16插槽安裝在x86服務器上。Xeon Phi x100有板載內(nèi)存(類似于NVIDIA/AMD的顯存),但訪問系統(tǒng)主內(nèi)存就要繞道CPU的內(nèi)存控制器,從而影響到效率。
 
而在上圖中間的服務器節(jié)點里,我們已經(jīng)看不到傳統(tǒng)的Xeon CPU,取而代之的就是“Bootable”(可獨立運行)的Xeon Phi Processor。左右兩邊是兩種不同的Xeon Phi x200,其中右邊的多伸出一個金手指,整合了Intel Omni-Path Fabric(OPA,又稱硅光互連)高速網(wǎng)絡。
 
 
Xeon Phi 7200系列的核心數(shù)有64、68和72三種,主頻1.3-1.5GHz,擁有16GB 高帶寬MCDRAM片上高速內(nèi)存(類似于HBM、HCM),并支持最大384GB DDR4內(nèi)存。Xeon Phi 7200的基礎功耗有215W和245W兩種,如果是結(jié)尾帶“F”支持Omni-Path的型號會增加15W Fabric功耗。
 
 
這個照片應該是Intel的參考平臺,尺寸上大致符合2U 4節(jié)點的密度,在Xeon Phi Processor兩側(cè)有6個DDR4內(nèi)存插槽。用紅圈標出的部分應該就是將Omni-Path網(wǎng)絡引出機箱的連接器件。
 
 
至本文截稿之時,官網(wǎng)上我還沒找到關于Xeon Phi x200的詳細資料,不過早在去年底翻譯自國外的新聞中已經(jīng)有過不錯的介紹。
 
如上圖,“Self Boot Socket”的Knights Landing除了DDR4內(nèi)存控制器之外,還可以提供36個PCIe Gen3 lane,感覺是移植了Xeon CPU的uncore部分設計。不過,提供2個Omni-Path 100Gb/s網(wǎng)口的型號就少了2個PCIe x16,讓我覺得這一代產(chǎn)品的片上OPA互連控制器走的還是PCIe?最右邊的PCIe插卡形態(tài),去掉了DDR內(nèi)存通道,能不能不要那個PCH南橋呢?
 
 
 
Xeon-phi-processor-block-diagram——來自Intel網(wǎng)站
 
上下兩張圖可以結(jié)合起來看。我數(shù)了一下紅色Processing Tile的數(shù)量是38個,如此則該架構(gòu)設計應該支持最多76個核心,目前限制在72個可能是為了保證良品率,或者功耗考慮?
 

 
根據(jù)右邊的解釋,每個“tile”中有2個Core共享1MB L2 Cache,每個Core支持4線程并包含2個AVX-512矢量單元(浮點計算應該就是靠它來進行的)。Intel還提到了這些Core是基于Atom處理器內(nèi)核,記得之前還有一種說法是P54C。P54C即當年Intel Pentium 75-166的核心代號,1997年我自己的第一臺電腦用的就是奔騰133。
 

 
在2011年春季北京IDF上,我曾經(jīng)看到這套由微服務器廠商SeaMicro打造的高密度系統(tǒng),展板上介紹在10U機箱內(nèi)容納了256個雙核Atom,當時負責展臺的朋友也提到了P54C。不知大家有沒有覺得神威太湖之光的節(jié)點布局有點像這個?
 
 
我猜測這個系統(tǒng)很早就開始用于預研今天的Xeon Phi Processor,當然此時它還談不上芯片集成度和成本效益。從照片中看每顆Atom旁邊應該都有一顆南橋(當時還不是SoC),內(nèi)存等可能在PCB背面,4顆印著SeaMicro的芯片估計是用于互連。
 
不同的AVX Boost頻率與整數(shù)/浮點單元配比
 
 
撰寫上一篇《工程師筆記:一項Xeon E5-2600 v4測試數(shù)據(jù)的背后》的過程中,在Dell的Solutions Performance Analysis文檔中我看到了以上規(guī)格表,其中有non-AVX和AVX單元不同的TurboBoost超頻頻率。讓我們放大來看一下:
 
 
對于所有核心一起工作時的TurboBoost,non-AVX的頻率比AVX要高,而最大(少數(shù)核心工作)TurboBoost頻率有些型號的CPU也存在差別。
 
 
上圖來自Intel資料,描述了Xeon E5v4(Broadwell)的一點改進。在此之前如果AVX和non-AVX負載在不同Core上混合運行,只能統(tǒng)一跑在兩者中較低的TurboBoost頻率上。而在Xeon E5v4上,則運行AVX的Core頻率不會降低到其它Core的TurboBoost水平。
 
我有個理解不知是否準確:由于用途的原因,整數(shù)/浮點單元的設計偏重與配比是Xeon Phi Processor與Xeon CPU的重要區(qū)別。至于Intel為什么沒有進一步像申威26010那樣“將MPE(管理單元)減少到4個來搭配256個CPE(計算單元)”?我覺得是考慮到通用性,畢竟Xeon Phi仍屬于x86指令集的一個擴展。
 
服務器平臺——SuperMicro
 
目前正式發(fā)布支持Xeon Phi Processor x200服務器產(chǎn)品的公司還不多,其中包括SuperMicro的主板和準系統(tǒng)(就是加個塔式機箱),或許只是先出個通用平臺還沒有太多特點。
 
 
SuperMicro K1SPA/E (-T) 主板示意圖,可以看到“巨大”的LGA-3647 CPU插座,據(jù)了解下一代Xeon E5可能也會用這個Socket。
 
 
 
上面是SuperMicro這款主板的結(jié)構(gòu)圖。涉及PCH 612的部分與傳統(tǒng)Xeon服務器并沒有明顯的不同;除了內(nèi)存通道之外,從處理器引出的PCIe x16 Gen3插槽也許不再支持拆分成x8或者x4,因為Xeon Phi的定位就是HPC,除了高速網(wǎng)絡互連應該啥也不缺了。
 
Dell PowerEdge C6320p:可選IB和Omni-Path
 
戴爾的這款PowerEdge C6320p,可以理解為是在2U 4節(jié)點機箱基礎上將C6320 Xeon E5計算節(jié)點換成了Xeon Phi Processor節(jié)點。它比較接近前面我們列出的Intel參考平臺,具備計算密度并適合大規(guī)模部署。
 
 
可能是由于初版資料,規(guī)格表中Xeon Phi Processor 72XX不支持的QPI還沒來得及修改徹底。C6320p有幾種硬盤/閃存支持選項,提供戴爾統(tǒng)一的iDRAC8服務器管理,聽說可以直接安裝Red Hat企業(yè)版Linux,具體注意事項有待后續(xù)確認。不過為了發(fā)揮AVX-512計算單元的能力,還是需要運行相應的編譯好的程序。
 
關于集成單端口Mellanox ConnectX-4 100GbE網(wǎng)卡這個可選項,為什么不是InfiniBand EDR呢?其實該公司近幾年對以太網(wǎng)的支持也不錯,可以在同樣的硬件上實現(xiàn)兩種網(wǎng)絡支持,比如EoIB這樣的方式。
 
上圖來自戴爾網(wǎng)站,可見這個100Gb網(wǎng)口應該是支持IB的。據(jù)了解PowerEdge C6320p也做好了支持Omni-Path的準備,除了現(xiàn)在可以使用Intel Omni-Path Host Fabric Adapter 100 Series PCIe網(wǎng)卡之外,等今年四季度Xeon Phi Processor 72xxF推出之后,像Intel參考平臺中那樣將Omni-Path引出機箱的連接器件也可以使用。
 
InfiniBand和Omni-Path誰會勝出?
 
自從Intel收購了QLogic IB業(yè)務和Cray的部分HPC互連技術(shù)之后,就開始醞釀著后續(xù)的戰(zhàn)略。他們認為IB網(wǎng)絡的成本在HPC系統(tǒng)中占比過高,在用戶投資不變的情況下會影響到Intel CPU等的出貨量。不過問題是,Intel到底是想賣CPU送網(wǎng)絡呢,還是將CPU賣得更貴?
 
來自Mellanox的反擊大概是這樣說的:“Omni-Path缺乏像IB那樣的硬件卸載能力,使網(wǎng)絡對CPU的占用率提高,變相導致需要買更高端的CPU,而從用戶TCO的角度來看反而不劃算。”下面是他們給出的一些對比數(shù)字。
 
 
 
以上圖表僅供參考,因為在Intel的宣傳資料中您很可能會看到另外一些不同的測試數(shù)字。
 
 
True Scale就是當初QLogic的40Gb/s InfiniBand產(chǎn)品線,可以看出100Gb/s的Intel Omni-Path在端口延時、發(fā)包速率上的優(yōu)勢。既然是在IB技術(shù)上發(fā)展而來,Omni-Path可能需要一個成熟的過程,但我不認為有太大的困難。
 
 
Intel還列出了交換機方面的一些優(yōu)勢。比如Edge(邊緣)交換機48口比IB的36口多,服務器節(jié)點可以不通過邊緣交換機直連Director(導向器)等。
 
關于HPC網(wǎng)絡方面的最終戰(zhàn)局,我覺得要看Intel Omni-Path怎么個賣法。如果未來某一代CPU/Xeon Phi Processor無論你用不用全都集成的話……



關鍵字:服務器

本文摘自:戴爾企業(yè)級解決方案

電子周刊
回到頂部

關于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 政和县| 景泰县| 通河县| 海盐县| 手游| 苍溪县| 湛江市| 潮安县| 阳西县| 松潘县| 平昌县| 邻水| 凤冈县| 汝阳县| 阿尔山市| 韶山市| 邹城市| 盐山县| 巧家县| 郎溪县| 永平县| 介休市| 新乡县| 桂林市| 定边县| 集贤县| 施甸县| 柳河县| 郧西县| 镇雄县| 涞水县| 巴林右旗| 交城县| 定襄县| 历史| 崇义县| 龙川县| 麻栗坡县| 井陉县| 同江市| 乾安县|