時間越來越近了,后天英特爾將發布最新一代的雙路處理器——至強E5,當然也已經是公開的秘密。新一代的產品在性能上比上一代的雙路 Westmere-EP有了大幅提升,同時在能耗的控制上也更為出色。除了英特爾之外,各個合作伙伴也將在現場展示最新一代平臺產品,之前惠普和戴爾兩家已經率先發布了自己新系列的產品——惠普Gen8系列和戴爾12G。
網上傳言的E5處理器規格
至強E5的確凝聚了太多的期待,因為相比上一次發布Westmere-EP已經過去了2年的時間。為此,有國外媒體已經率先提供了E5全系列產品型號及規格,當然更為細節的測試成績及規格等內容還是要等到發布之后才能放出,畢竟敢捋英特爾這一大根虎須的人還不多。
Intel Sandy Bridge微架構32nm至強處理
當然,至強E5也不是我們今天想要介紹的內容。借著至強E5發布的契機,我們愿意同大家一起回顧一下英特爾多年以來在至強平臺中的產品,它們曾為我們的數據中心立下汗馬功勞,現在也改歇歇了。
首先登場的是至強5000系列處理器,它基于“Bensley”平臺。英特爾公司公布的“Bensley”平臺包括代號為“Dempsey”的雙核Xeon DP處理器和代號為“Blackford”的Intel 5000系列芯片組,另外還有一系列的新技術,比如I/O AT技術、FBD內存技術、更新的安全特性等等。
英特爾當時一共發布了8款基于“Dempsey”核心的處理器:Xeon 5080、Xeon 5070、Xeon 5060、Xeon 5063、Xeon 5050、Xeon 5040、Xeon 5030和Xeon 5020。這些處理器依然采用了NetBurest微架構,它們將會是最后一個采用該微架構的Xeon系列產品。在Xeon 5000系列處理器中整合了兩個完整的NetBurst微架構處理器,并且對于NetBurst微架構進行了進一步的優化——主要涉及到超管線技術(Hyper Pipelined Technology)和執行追蹤緩存(Execution Trace Cache)。每個處理器擁有獨立的2MB二級緩存,其前端總線為1066MHz或者667MHz,可以提供8.5GB/s或者5.3GB/s的傳輸帶寬。
Xeon 5000系列處理器采用了65nm制程,這對于有效的抑制Xeon處理器的發熱量具有至關重要的作用。采用90nm制程的Irwindale核心的單核 Xeon處理器TDP在130瓦左右,而Xeon 5000系列雙核處理器TDP也只有135瓦甚至更低。Xeon 5000系列處理器不再采用Socket604封裝,改用了FC-LGA6 LGA771封裝,可進一步改進處理器的電氣性能,更利于功率傳導。
這個系列的處理器依然支持超線程技術(Hyper-Threading Technology),這樣每個核心可以處理2個線程,每顆雙核心處理器可以并行處理4個線程,雙路配置的處理器則能可以同時處理8個線程。另外,這個系列的處理器支持EIST、EM64T、VT、XDbit等技術,對于TM1功能也提供了支持。
基于Woodcrest核心的至強5100
英特爾目前已經發布了7款基于Woodcrest核心的Xeon 5100處理器,它們是Xeon 5160、Xeon 5150、Xeon 5148、Xeon 5140、Xeon 5130、Xeon 5120和Xeon 5110。
Xeon 5100系列處理器的主頻變化很大,他們沒有延續上一代產品的主頻,已經發布的處理器中主頻最低是1.6GHz,而最高的也只有3.0GHz。Xeon 5000系列處理器的最低主頻為2.5GHz,最高則達到了3.73GHz。處理器主頻的大幅度下降幫助Xeon 5100處理器明顯的降低了功耗,在7款處理器中只有5160的TDP為80瓦,5150/5140/5130/5120/5110等五款處理器TDP為 65瓦,Xeon 5148的TDP只有40瓦。
Xeon 5100系列處理器(Xeon 5160/5150/5148/5140/5130)增加了對于1333MHz前端總線的支持,該總線實際運行頻率為333MHz,可以4倍于其頻率的速率傳輸數據,因此理論上每秒可傳輸10.66 GB的數據。而部分低端的處理器(Xeon 5120/5110)則支持1066 MHz前端總線,此時其系統時鐘頻率為266MHz,帶寬為8.5 GB/s。之前的Xeon 5000系列處理器中則有4款產品采用了1066MHz前端總線,還有4款產品采用了667MHz前端總線。前端總線的技術并沒有明顯地的改變,依然利用了分離傳輸(split-transaction)、延遲應答協議(deferred reply protocol)和地址和數據的源同步傳輸(Source-Synchronous Transfer,SST)等技術。
從英特爾公布的文檔來看,Xeon 5100系列處理器還進一步改進了熱量和功率管理能力,它除了支持原有的TM1和EIST技術之外,還增加了對于TM2的支持——它主要增加了調節處理器電壓的作用。另外,雙核英特爾Xeon 5100系列處理器也支持EDBit(Execute Disable Bit)功能和英特爾虛擬化技術(Intel VT)。不過超線程技術并沒有應用在Xeon 5100系列處理器上。
Quad-core Xeon 5300系列處理器是定位于雙路服務器/工作站應用的處理器,代號為Clovertown,它將兩個雙核核心整合在一個處理器基板上,率先向市場上推出了四核雙路處理器。
英特爾首先發布了5款處理器X5355、E5345、E5335、E5320和E5310,隨后又陸續發布了L5335、X5365等處理器。這些處理器均采用了65納米制程和LGA6封裝(LGA771),配置了8MB L2緩存(每顆處理器4MB L2緩存),主頻分別為最高達到了3.0GHz。型號最后一位是“5”的FSB頻率為1333MHz,傳輸帶寬可達10.6GB/s,型號最后一位是 “0”的FSB頻率為1066MHz,傳輸帶寬可達8.5GB/s。
四核Xeon 5300系列的TDP提升到了一個新的水平,X5355/X5365處理器TDP為120瓦,E系列的四款均為80瓦,L系列為50瓦。雙核Xeon 5100系列處理器中,Xeon 5160的TDP為80瓦,Xeon 5148 LV的TDP為40瓦,其余的均為65瓦。從英特爾公布的這些TDP數據來看,雖然四核處理器是兩顆雙核處理器的“簡單整合”,但是其功率應該并非兩個雙核處理器的功率之和。
上圖顯示的是Xeon 5320處理器的基本信息:Intel Xeon 5320處理器,主頻為1.86GHz,前端總線頻率為1066MHz,每個核心配置有32KB L1數據緩存,32KB L1代碼緩存,每個DIE則整合有4MB L2緩存(也就是兩個核心共享4MB L2緩存),整個處理器總共具有8MB L2緩存??偟膩碚f,Xeon 5100所有的特性,Xeon 5300全都具有,最大的改變無非是核心的數量從2個增加到了4個。但是,毫無疑問的是四核處理器的出現使得計算資源的密度大幅度提升,而功耗基本保持不變,這對于寸土寸金的IDC而言絕對是有重大意義的。[page]
Intel嚴格的按照其“Tick-Tock”戰略,在2007年的11月份推出了基于45nm制程的四核處理器,代號Harpertown。相對于上一代65nm Clovertown核心的產品,Harpertown進一步優化了微架構,添加了功能并且升級了主要規格。
Xeon E5430處理器,2.66GHz,12M緩存,1333MHz FSB,具有適中的性能、功耗及價格
從65nm到45nm的轉變,不僅僅是當前芯片設計在體積上的縮小。此類處理器中還增加了許多新的特性,如全新的英特爾SIMD流指令擴展 4(SSE4),可通過47條全新指令加快包括視頻編碼在內的工作負載的處理速度,從而支持高清晰度畫質和照片處理,以及重要的HPC和企業應用。
較高端的X5460處理器,后來Intel還發布了頻率更高的X5482處理器
和上一代Clovertown相比,Harpertown處理器將2 x 4MB的L2緩存提升到了2 x 6MB L2緩存,每兩個核心共享6MB緩存。Harpertown處理器將不再使用舊的1066MHz FSB,而開始支持更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技術,四核Harpertown的功耗依然保持同現有的雙核大致相當的水平,TDP為80瓦、120瓦和150瓦,并且頻率規格也有所提高,最高端的Xeon X5492處理器可以達到3.4GHz,而上一代Xeon X5365只有3.00GHz。
對于Intel的Tick-Tock戰略已經是老生常談了;從另一方面講,這標明了Tick-Tock戰略的成功之處,一個簡單、明晰、有序和易于理解的發展計劃,對合作廠商、用戶和投資者都是極為有利的。TIck-Tock戰略簡而言之就是Intel處理器在奇數年進行制程轉換(Tick),例如 2005年的65nm和2007年的45nm,而在偶數年進行處理器的架構更新(Tock),Nehalem架構發布的2008年輪換到了Tock,也就是處理器的架構更新。
Nehalem作為Intel用以取代Penryn微架構的新一代處理器架構,和Penryn相比,Nehalem的微架構并非是全新的,不過,架構上則是一個很大的飛躍:Nehalem采用了直聯架構。除此之外,Nehalem還具有一個鮮明的設計理念,就是采用了可擴展的模塊化設計,它將處理器劃分為兩個部分:Core核心和Uncore非核心(或者叫“核外”),所有產品線的Nehalem處理器,其Core核心部分都是一樣的,只是Uncore 部分可能不同,以滿足Intel對其提出的動態可擴展的要求。Nehalem滿足了這個要求,它的內核具有可擴展的高可伸縮架構。
由于共處在一個Tick-Tock上,因此Nehalem和Penryn都同樣屬于45nm工藝,從65nm工藝轉變到45nm工藝帶來的巨大能耗降低已經無法再次重現,因此Nehalem就不再注重于能耗的降低,而是注重于性能的提升,這樣的設計理念,帶來了處理器架構的巨大變化,這些變化均面向性能的提高,也即是說,我們可以期望Nehalem具有著強大的性能。
[page]
雙路六核服務器版本和雙核客戶版本Westmere處理器配置
Westmere處理器家族是Nehalem處理器家族的下一代,Nehalem基于45nm制程,Westmere則基于32nm制程,它們都使用了 high-κ metal-gate(高K金屬柵極)工藝,在微架構上,Westmere就是Nehalem的增強版本。
Intel High-k Metal Gate晶體管,這兩個技術都是為了增強晶體管的場效應和降低其漏電
除了工藝之外,Westmere最大的特點就是最高集成了6個處理器核心,包括12MB L3緩存,共多達11.7億晶體管,四核心的Nehalem包括8MB L3緩存則有7.31億晶體管,而這兩者具有接近的核心面積(Westmere的還要小一點)。
雙核和六核Westmere晶圓圖
和Nehalem一樣,Westmere也實現了Power Gates技術,和Nehalem不同的是,Westmere的Power Gates不僅僅限于關閉處理器核心,它還擴展到了可以關閉L3緩存以及Uncore上的全局隊列(Westmere晶圓上正中央下方的部分)。在所有核心都被Power Gate之后,L3緩存將會被部分刷新并且Uncore部分的供電將會線形地降低,L3/Uncore的漏電樓將得到降低。在最限制的情況下,L3緩存和全局隊列將會全部刷新并Power Gated關閉,只有一塊附屬于L3的SRAM會用來保持所有核心的關鍵狀態。
和Nehalem一樣,Westmere也使用了Long-Le晶體管(Long Channel長溝道晶體管)技術,Nehalem-EX和Dunnington也有使用,只是“分量”有些不同。Westmere有60%的核心部分使用了長溝道晶體管,Uncore部分則同時使用了超低漏電晶體管和長溝道晶體管。Nehalem則是58%的核心部分使用了長溝道晶體管。
最后,Westmere的漏電功耗大約是總功耗的23%。Nehalem上這個數值是16%。
型號 | 制程 | 緩存 | 主頻 | 前端總線 | TDP | SMP | 雙核心 | 超線程 |
7150N | 65 nm |
16 MB L3 2x1 MB L2 |
3.50 GHz | 667 MHz | 150W | MP | 支持 | 支持 |
7140M | 65 nm |
16 MB L3 2x1 MB L2 |
3.40 GHz | 800 MHz | 150W | MP | 支持 | 支持 |
7140N | 65 nm |
16 MB L3 2x1 MB L2 |
3.33 GHz | 667 MHz | 150W | MP | 支持 | 支持 |
7130M | 65 nm |
8 MB L3 2x1 MB L2 |
3.20 GHz | 800 MHz | 150W | MP | 支持 | 支持 |
7130N | 65 nm |
8 MB L3 2x1 MB L2 |
3.10 GHz | 667 MHz | 150W | MP | 支持 | 支持 |
7120M | 65 nm |
4 MB L3 2x1 MB L2 |
3 GHz | 800 MHz | 95W | MP | 支持 | 支持 |
7120N | 65 nm |
4 MB L3 2x1 MB L2 |
3 GHz | 667 MHz | 95W | MP | 支持 | 支持 |
7110M | 65 nm |
4 MB L3 2x1 MB L2 |
2.60 GHz | 800 MHz | 95W | MP | 支持 | 支持 |
7110N | 65 nm |
4 MB L3 2x1 MB L2 |
2.50 GHz | 667 MHz | 95W | MP | 支持 | 支持 |
7041 | 90 nm | 2x2 MB | 3 GHz | 800 MHz | N/A | MP | 支持 | 支持 |
7040 | 90 nm | 2x2 MB | 3 GHz | 667 MHz | N/A | MP | 支持 | 支持 |
7030 | 90 nm | 2x1 MB | 2.8 GHz | 800 MHz | N/A | MP | 支持 | 支持 |
7020 | 90 nm | 2x1 MB | 2.66 GHz | 667 MHz | N/A | MP | 支持 | 支持 |
采用Paville核心的Xeon MP處理器屬于Xeon 7000系列,而采用Tulsa核心的Xeon MP處理器屬于Xeon 7100系列。Xeon 7100系列處理器主頻范圍在2.5GHz到3.5GHz之間,前端總線分為667MHz和800MHz兩種,型號后綴為N的前端總線為667MHz,型號后綴為M的前端總線為800MHz。Xeon 7000利用處理器主頻和前端總線頻率來區隔不同型號的產品(Xeon 5000/5100系列處理器也是如此),而Xeon 7100則不僅利用主頻、前端總線還利用L3緩存來區隔不同型號的產品。
每個 Xeon 7100處理器均包含兩個完整的核心,每核心均配置了1MB L2緩存,這僅是Xeon 7030/7040處理器L2緩存容量的一半。不過,Xeon 7100的兩個核心可以共享“新增”的L3緩存,比如7110和7120均配置了4MB L3緩存,7130配置了8MB L3緩存,而7140和7150都配置了16MB L3緩存,因此縮減了L2緩存容量并不一定會犧牲處理器整體性能。特別需要說明的是,7140和7150的L3緩存容量達到了16MB,僅次于Intel 于今年發布的雙核Itanium 2 9000處理器24MB L3緩存的容量。但是增加L3緩存并非創新,從Xeon MP的歷史來看,這樣的“改變”僅僅是一次回歸而已。
65納米制程的應用使得Tulsa處理器得以集成更大容量的緩存。不過即便如此,Tulsa核心面積依然達到了424平方毫米,而之前的單核Potomac核心面積為354平方毫米,Paville的核心面積也只有299平方毫米。如果處理器復雜程度變化不大,從90納米制程升級到65納米制程則意味著同樣尺寸的晶圓可以切出更多的芯片,從而大幅度降低成本,但是Tulsa集成度遠遠高于前兩代產品,因此其成本不會因此有明顯降低。
同樣,因為集成度的提高(Xeon 7100處理器內包含13億個晶體管),Tulsa的功耗的絕對值也維持著較高的水平。Xeon 7110/7120的TDP為95W,而7130、7140和7150則均達到了150W。考慮到Xeon 7100系列處理器主頻更高,而且整合了L3緩存,其相對于Paxville處理器在能耗控制上還是取得了很大的進步的。
隨Caneland平臺一起發布的有兩個系列的處理器:Xeon 7300四核處理器和Xeon 7200雙核處理器,代號分別為Tigerton-QC和Tigerton-DC。這兩個系列的處理器均是將兩個DIE封裝在一起,每個DIE均有4MB L2緩存。其中Tigerton-DC的設計非常有意思,它沒有采用單個DIE雙核的設計——英特爾稱這種設計可以在現有條件下讓雙核處理器具有更大容量的緩存,適于某些高性能計算和財務服務等有較大緩存需求的應用。
Xeon 7300系列處理器包括6款產品,其中4款E系列主頻在1.6GHz-2.4GHz之間,4-8MB L2緩存,1066MT/s,TDP均為80瓦,適用于機架式/刀片式服務器;L系列只有一款L7345,主頻為1.86GHz,8MB L2緩存,TDP為50瓦,適用于高密度機架式/刀片式服務器;X系列的也只有一款X7350,主頻高達2.93GHz,TDP也達到了130瓦,適用于高性能應用。
Xeon 7200/7300擴容了二級緩存去掉了三級緩存,因此我們估計Tigerton的復雜程度并不會明顯的增加,所以功耗的降低主要來自頻率的降低和 65nm制程的進一步改進。Xeon 7200/7300處理器支持TM1、TM2功能,利用英特爾智能功率控制技術可單獨控制每個核心的功率狀態。
Tulsa相對于Paxville在微架構上并沒有改進,最大的改變是開始采用65nm制程,為了進一步的提升性能,只有在主頻和L3緩存上打主意。棄用Netburst微架構,采用高效能的Core微架構(內置WDEE,寬位動態執行引擎)并且升級到四核是Xeon 7200/7300系列處理器相對于之前的Xeon 7000/7100系列處理器最大的不同。此外,Xeon 7200/7300還擴容了二級緩存(從2x1MB升級到了2x4MB,支持智能緩存和智能內存訪問),去掉了三級緩存(也不排除今后為了提升性能再增加),同時前端總線升級為1066MT/s,按照英特爾Xeon DP路線圖來看,今后Xeon MP處理器的FSB升級到1333MT/s甚至1600MT/s也是可能的。
Dunnington采用其后來者Nehalem一樣的45nm CMOS工藝,采用了金屬柵極High-K電介質晶體管以及9層銅互聯技術,總晶體管數量則為1.9 Billion——19億,已經和Nehalem-EX的23億很接近了,新增加的核心和大容量的L3都需要占據很多的晶體管。Dunnington的核心面積為503.2mm2。
六核心45nm Penryn Dunnington——Xeon X7460的結構圖,和其他Penryn不同,是一整塊“原生”的核心
來源:ISSCC2009 Over 1 Million TPC-C with a 45nm 6-Core Xeon CPU
對于一款處理器來說,除了外部平臺的架構之外,處理器內部架構和處理器微架構都是對性能有很大影響的主要因素。如圖所示的Dunnington屬于最高規格的一款,型號是X7460(曙光I840-H就采用了這款處理器),架構上具有6個Penryn核心,每個核心帶有64KB L1緩存(32KB L1-I,2KB L1-D),每兩個處理核心共享3MB的L2緩存(果然還是帶有“粘”的性質),三對處理器內核就總共帶了9MB容量的L2,每個核心通過一條 128Bytes的緩存線聯結L2。Intel宣稱不同的一對核心之間的L2是具有其他互通界面的(被命名為Advanced Transfer Cache Architecture),不過語焉不詳。其他的四核45nm Penryn也具有這個高級緩存傳輸架構。X7460的核心頻率為2.66GHz,不算太高。Dunnington里面最高主頻就是2.93GHz。
7400系列處理器的規格,注意7400系列處理器里面也有4核心的型號
7400系列處理器的緩存架構細節
重點來了,除了上面這些傳統的架構之外,Dunnington特別的地方是多了一個Uncore結構,這個結構包括了容量達到了16MB的L3緩存,所有的處理核心經過L2聯結到中央系統邏輯,如下圖所示,標明為Uncore的中央電路聯結著所有的核心以及16MB L3緩存,并通過一個傳統的FSB總線與處理器外部通信,由于所有處理內核是通過新的總線與Uncore聯結,而與以往的“粘結產品”使用FSB互聯不同,大部分的交通都發生在內部,從而可以大為節約處理器的FSB帶寬。Xeon X7460的FSB頻率為1066MHz,提供8.5GB/s的帶寬,現在的Xeon MP都支持MIB(Multiple Independent Bus,多重獨立總線,Xeon DP的DIB的進階版本),每一個處理器都通過獨立的FSB與MCH聯結,因此效率上還可以。
"Uncore"是六核心45nm Penryn至強Dunnington的重要部分
代號為Nehalem-EX的服務器處理器是x86架構中第一個具有8個核心的產品,Nehalem-EX擁有8個CPU核心,配置了24MB的L3。我們知道Intel的x86服務器產品線通常分為兩個層次:2個Socket以及2個Socket以上,如Nehalem-EP就是用于2個及以下Socket,Nehalem-EX就是用于4個或4個以上Socket。臺式機產品線的Nehalem處理器:Core i7(Bloomfield)在2008年11月發布,Nehalem-EP則預計在2009年3月中發布,Nehlam-EX若無意外則會是在下半年的晚些時候。由于競爭對手AMD的6核心Operton Istanbul就目前來看也就和Nehalem-EP打個不分上下,因此提前推出的“意外”應該很難發生。
此次Nehalem-EX是由位于California加利福尼亞州Santa Clara研發中心推出的。一般認為該研發中心擔任Itanium處理器的研發工作。順便提一下,Pentium Pro、Pentium 4處理器都是出自Hillsboro研發中心,HTT超線程技術也是,因此Nehalem和Pentium Pro這么相像、Nehalem上搭載Pentium 4上的超線程改良版也就順理成章、容易理解了——現在大家清楚為什么Pentium 4、Nehalem有超線程而Cornoe沒有超線程了吧?
來源:ISSCC2009 A 45nm 8-Core Enterprise Xeon Processor
上圖是Intel在ISSCC09 "A 45nm 8-Core Enterprise Xeon Processor"論文當中給出的Nehalem-EX核心分布圖,基本構成是處理器核心分布在四個角落,所有核心共享的L3緩存則居于內核中部,在內核正中央則具有兩個Hub集線器和一個Router路由器來負責所有核心的數據共享,管理內存、QPI以及L3緩存之間的數據流向。Nehalem-EX在核心正上面具有4個QPI——QuickPath Interconnect總線,核心正下方則是兩個內存界面,總共有4個DDR3內存通道。下圖是另一個形式的核心分布圖,帶有一些猜測性質:
眾所周知,Nehalem-EX的生產工藝和其他Nehalem都一樣,都是45nm CMOS工藝,采用了金屬柵極High-K電介質晶體管以及9層銅互聯技術,總晶體管數量則為2.3 Billion——23億,是4核心Bloomfield的三倍以上,和Tukwila Itanium處理器一樣,然而Tukwila不斷跳票,因此Nehalem-EX有幸成為現在Intel晶體管數量最多的處理器。此外,雖然晶體管數量劇增,Nehalem-EX的面積卻只提升了約2.4倍左右。除了核心數量是Bloomfield的兩倍之外,額外加入的晶體管被用在了更多數量的L3 上,QPI/IMC以及中央系統邏輯(Hub和Router)的變化不算太大。