稱霸移動領域后,ARM試圖進軍并占領桌面、服務器早已經不是秘密,也有很多廠商行動起來,但從目前的跡象看,ARM服務器即便爆發最快也得等到2014年。雖然ARM架構在這幾年各方面都堪稱突飛猛進,但究竟能不能從Intel Xeon、AMD Opteron那里奪得一杯羹,還有待觀察。
在目前已有的一些ARM服務器產品中,基本都是概念試驗性質的,完全沒有大規模鋪開,因此想一探究竟也非常困難。又是大佬AnandTech,他們從英國Boston那里拿到了一臺迄今為止堪稱最為成熟的ARM服務器“Viridis”,其中使用了Calxeda專門為服務器開發的ARM SoC,并且和Intel Xeon、Atom進行了實際對比測試。
ARM服務器是騾子是馬?終于第一次有了真正的評測數據。
來瞧瞧ARM服務器
這臺服務器首先在外觀上就很有特色,前面板赫然是紅色的,在強調沉穩的服務器領域可不多見。Calxeda在這里用不同顏色來代表不同用途,紅色對應云平臺,橙色代表NAS應用,藍色則是高性能集群。
注:原文中一些關于服務器零部件的介紹我們就特意略過了,重點只看處理器相關的。
前面板之后是24個2.5寸硬盤位,可以安裝SATA硬盤,還有一個標準的750W 80PLUS金牌電源。
主板和普通x86服務器上的很不一樣,沒有任何CPU、內存插槽,而是遍布PCI-E插槽,每對插槽插上一個EnergyCard(簡稱EC)擴展卡,就構成了一個服務器集群。
每塊EC上有4顆處理器、4條mimiDIMM內存插槽、16個SATA接口,相當于4個服務器節點。
每臺服務器可以安裝12塊EC,那就是48個節點,不過光纖互連架構最多可以支持到4096個節點,具體多少就看怎么配置、需求幾何了。
評測樣機只有6塊EC、24個節點。內存安裝的是Netlist 4GB 1.35V ECC(PC3L-10600W-9-10-ZZ),總計24條、96GB。硬盤使用了三星MZ7PC256HAFU 256GB(類似消費級的310系列),每顆處理器對應一塊,總計24塊、6TB。以前的版本還有microSD卡插槽,現在取消了。
風冷散熱方面做得倒是很巧妙,不過拆裝起來有點費勁。
處理器名字叫做EnergyCore ECX-1000,臺積電40nm工藝制造,Cortex-A9架構,四核心,主頻1.1-1.4GHz,典型功耗3.8-5W。
每個核心有32KB一級指令、32KB一級數據緩存,所有核心共享4MB ECC二級緩存。普通移動處理器里一般只有1MB二級緩存,還不支持ECC。
處理器內還有優化SIMD處理的NEON擴展、獨立的FPU浮點單元、TrustZone安全模塊。Cortex-A9可以每時鐘周期解碼兩條指令,并分發最多四條。這和雙核心雙線程的Atom差不多,但是跟Sandy Bridge Xeon E5的4-5條解碼、6發射是沒法比的。
真正的大殺器是功耗:Calxeda宣稱,整個服務器節點在1.1GHz頻率時的負載功耗最低只有5W,待機時更是區區0.5W。
服務器更離不開軟件支持和優化。Calxeda在操作系統上支持Ubuntu、Fedora,不過理論上任何基于32-bit ARM Linux內核的編譯版本都能夠運行。Ubuntu ARM已經有了一個預編譯的Highbank鏡像可用。
Calxeda也在這方面投入了一些開發資源,并加入了非營利組織Linaro,旨在為ARM SoC打造開源生態系統。
截止去年底,Calxeda生態系統涵蓋的操作系統、編譯器、編程語言、調試器、Java、應用程序如下:
【實際應用測試】
不過上邊都是理論測試,也沒有發揮ARM服務器多節點、高性能光纖互連的特性。該看看真正的應用了。
Calxeda宣稱,ARM服務器并非面向一般IT管理,而是適合以下四種環境:Web應用、中間層應用、離線分析、存儲和文件服務。
為此假設兩套服務器。Xeon方面除了兩顆E5-2650L,還加入兩顆E5-2660 2.2GHz/95W,同樣八核心十六線程,這就總計四顆、32核心、64線程。搭配128GB內存、ESXi 5.1虛擬環境創建24個虛擬機,每個里邊都假設一個PHPBB(Apache2/MySQL)網站,各自分配4個邏輯CPU核心、4GB內存,占用硬盤空間約8GB。再模擬75個并發用戶,每0.6-2.4秒發送一個新的請求。監控使用vApus壓力測試框架。
這相當于每秒鐘有幾千個用戶點擊十幾個網站,一天下來就會有上億次點擊。實際測量網絡流量峰值8Gb/s,高于典型的4-6Gb/s。
ARM方面負載相同,但用的不是虛擬機,而是24個物理節點。
圖中數據都是每秒響應次數(越高越好)。在并發用戶較少的時候,96個ARM A9核心要比兩種32個Xeon邏輯核心都慢一些,但隨著并發用戶數的增多,ARM開始反超,相比E5-2650L快了足有50%,甚至比E5-2660都快不少。
Calxeda還提供了一些優化方法,不過倒騰下來結果并沒有好多少,反而還略有倒退。E5-2650L經過優化之后倒是提高了一些成績。
再看響應時間(越低越好)。ARM仍然是在并發用戶數多的時候更勝一籌,不過優化沒啥效果,反而再次退步了。看起來在軟件優化上,ARM路漫漫兮。
【功耗測試】
這或許將是ARM服務器最為依賴的絕招之一了,真會很省電么?
Calxeda/ARM真的做到了:每個服務器節點的平均功耗只有大約8.3W,正好符合官方宣稱的6-8.5W,而待機時候僅僅5.6W,距離官方說的5W也很接近了,峰值也不過10W。
而且這些都是優化后的成果,說明盡管性能沒上去,但至少功耗下來了,同樣可喜可賀,而在優化前待機、平均、峰值功耗分別為6.8W、9.1W、10.5W,效果還是很明顯的,尤其是待機的時候,不優化可是要比Intel更耗電的。
再考慮處理器頻率、服務器空間因素,ARM相比于Xeon平均能節約功耗10%,待機時則省18%。
【價格】
Boston Viridis ARM服務器要多少錢?24節點、1.4GHz、96GB內存的一臺官方標價2萬美元,真的很貴。
要知道,一臺戴爾R720有兩顆Xeon E5-2650L、96GB內存、雙萬兆網絡,才不過8千美元,買兩臺還能剩下4千。
但如果批量采購,Boston Viridis每臺可以優惠到8500美元,每個節點才352美元,基本就差不多了,但在服務器采購上,一般達到20臺能享受10-20%的折扣,所以此時Xeon E5的大約要6500-7200美元。
【結語】
ARM架構天生孱弱的性能決定了它不可能在速度上去比拼Intel Xeon,后者可以在幾乎任何一個方面輕松完秒它,而且配置更加靈活,軟件支持和優化也更為完善,生態系統羨慕死你。
Calxeda也并非不知道這一點,特別強調ECX-1000 SoC只適合初期體驗,下一代基于Cortex-A15架構的同樣也會如此,不會全面鋪開。而根據測試,比較適合這種ARM服務器的是需要應付一定網絡流量的Web服務器集群,或者流媒體服務器、存儲服務器,這些CPU負載不是很高的地方,以及非常在意功耗的客戶。
當然,ARM真正要在服務器領域內發威還得等待64位的ARMv8 Cortex-A50系列,Calxeda也準備屆時開始爆發。ARMv8架構有很多專門針對服務器設計的地方,無疑更適合。
盡管完全無法和Xeon媲美,Calxeda ECX-1000的進步仍然堪稱革命性的,如約做到每個節點8W的功耗值得贊嘆,而且別忘了這只是40nm工藝的。Intel Atom性能差不多,工藝可是新的32nm。
Calxeda的下一代服務器ARM芯片組“Midway”正在開發之中,預計會在今年第三季度登場,屆時會使用28nm Cortex-A15架構,單線程整數性能將比現在提升50%,可尋址內存達到16GB,當然功耗也會稍高一些??梢灶A料,屆時的ARM服務器將能適合更多環境,包括分布式內存緩存、大型Web、中型服務器等等,而且還會支持KVM、Xen虛擬機(不過ARM真正想在虛擬機上跑起來還得等ARMv8)。