引言
大數(shù)據(jù)已成為HPC最重要的應(yīng)用領(lǐng)域,戴爾PowerEdge FX2集刀片和多節(jié)點(diǎn)機(jī)架式服務(wù)器的技術(shù)優(yōu)勢(shì)于一身,不僅為用戶化解計(jì)算密度、空間占用、網(wǎng)絡(luò)布線的權(quán)衡之困,更令用戶輕松獲得頂級(jí)計(jì)算密度、存儲(chǔ)性能,以及超快網(wǎng)絡(luò)應(yīng)用。
在之前的《從HPC到大數(shù)據(jù):戴爾-Intel Lustre存儲(chǔ)解決方案》一文中,我們?cè)?jīng)談到用于高性能計(jì)算的文件系統(tǒng)已經(jīng)開始添加大數(shù)據(jù)(Hadoop)方面的支持。
如上圖,從中國超算Top100來看大數(shù)據(jù)已經(jīng)成為HPC最重要的應(yīng)用領(lǐng)域。
那么,大數(shù)據(jù)分析對(duì)高性能計(jì)算設(shè)備——服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)方面有什么新的要求嗎?在本文中我們?nèi)跃劢够A(chǔ)架構(gòu),為大家介紹上述領(lǐng)域的創(chuàng)新,包括幾款已經(jīng)或者即將發(fā)布的特色產(chǎn)品,以及真實(shí)的客戶案例。
HPC服務(wù)器進(jìn)化方向 計(jì)算密度、GPU/協(xié)處理器
這張圖是戴爾服務(wù)器產(chǎn)品線在HPC計(jì)算單元中的布局,藍(lán)色箭頭最底下一行是通用節(jié)點(diǎn),即標(biāo)準(zhǔn)化的1U/2U/4U服務(wù)器。上面則是HPC優(yōu)化型產(chǎn)品,最左邊的PowerEdge C4130是1U高度,支持4塊NVIDIA Tesla GPU或者Intel Xeon Phi co-processors計(jì)算加速卡;C6320則是比較典型的2U 4節(jié)點(diǎn);安裝FC430節(jié)點(diǎn)高密度CPU的FX2是本文要討論的重點(diǎn);再往右有M630刀片服務(wù)器;最右邊是定制的模塊化數(shù)據(jù)中心。
HPC應(yīng)用多為大規(guī)模集群部署,計(jì)算密度直接關(guān)系著空間占用,進(jìn)而影響到機(jī)房設(shè)計(jì)、網(wǎng)絡(luò)布線等方面。早期的計(jì)算能力基本上是堆CPU;后來隨著GPU/協(xié)處理器在通用計(jì)算領(lǐng)域的應(yīng)用,算是第二個(gè)設(shè)計(jì)方向。當(dāng)然后者還要特別考慮編程和效率的問題。
本文討論重點(diǎn)之一就是提高HPC的CPU計(jì)算密度。
服務(wù)器形態(tài)進(jìn)化 來自Dell的極限密度
回首當(dāng)年,服務(wù)器從機(jī)架式衍生出刀片式,不僅提高了計(jì)算密度,集成了網(wǎng)絡(luò)交換單元,還可以集成共享存儲(chǔ)單元(DAS或者iSCSI刀片存儲(chǔ)模塊)。刀片最大的優(yōu)勢(shì)是管理,能降低運(yùn)維工作量。
曾經(jīng)有一段時(shí)間,連超大型HPC集群都開始選擇刀片式服務(wù)器。不過一方面它在同等計(jì)算能力下的成本要高于機(jī)架式服務(wù)器,另一方面它的計(jì)算密度還有沒有可能再提高?
于是在數(shù)年前,開始出現(xiàn)一些多節(jié)點(diǎn)機(jī)架式服務(wù)器,比如1U雙節(jié)點(diǎn)、2U四節(jié)點(diǎn)——被人們稱為雙子星和四子星。在保持刀片計(jì)算密度的同時(shí),成本上顯著降低,加上機(jī)架空間的節(jié)省,TCO比傳統(tǒng)機(jī)架式服務(wù)器還要低,因此受到一些云計(jì)算和HPC用戶的青睞,比如戴爾PowerEdge C系列中的C6320。
多節(jié)點(diǎn)機(jī)架式服務(wù)器中目前最流行的就是2U四節(jié)點(diǎn),門檻不高(自己做不了的品牌可以找ODM供應(yīng)商)。與刀片相比,它們沒有集成網(wǎng)絡(luò)交換和強(qiáng)大的管理功能;與機(jī)架式相比,它們的存儲(chǔ)和I/O擴(kuò)展性一般;為了優(yōu)先考慮成本,品質(zhì)上就可能有所取舍。
當(dāng)我們看到戴爾PowerEdge FX2時(shí),第一印象是它集合了刀片和多節(jié)點(diǎn)機(jī)架式服務(wù)器的技術(shù)優(yōu)勢(shì)。首先是計(jì)算密度——2U內(nèi)最多可以支持8個(gè)雙插槽Xeon CPU節(jié)點(diǎn);其次是靈活性——可選多種服務(wù)器節(jié)點(diǎn);還有擴(kuò)展性——包括可拆分的DAS存儲(chǔ)節(jié)點(diǎn)、多種網(wǎng)絡(luò)直通/交換模塊;以及CMC機(jī)箱集中式管理。
戴爾PowerEdge FX2組件全家福
以上是PowerEdge FX2模塊化系統(tǒng)支持的組件,這里除了服務(wù)器節(jié)點(diǎn)、還包括存儲(chǔ)單元和網(wǎng)絡(luò)交換模塊(I/O聚合器)。圖中的數(shù)量比較多,是因?yàn)槊糠N型號(hào)還有不同的硬盤/SSD驅(qū)動(dòng)器托架可選。
正是這種靈活性,使FX2可以有多種應(yīng)用方向,比如我們?cè)凇队布o助超融合:任意云中的全閃存VSAN》一文中介紹的分布式存儲(chǔ)/超融合。而本文既然是談HPC,自然是討論計(jì)算密度最高的FC430。
使用當(dāng)前Intel Xeon處理器的FX2 w/FC430,計(jì)算性能密度可達(dá)業(yè)界領(lǐng)先的4.1TFLOPS/U
PowerEdge FC430的一大特點(diǎn)就是超高的計(jì)算密度——2U 8個(gè)1/4寬度雙插槽節(jié)點(diǎn),盡管由于功耗和散熱的限制,它只支持到14核Xeon E5-2600v3 CPU,但2U內(nèi)密度已高達(dá)224 core,因?yàn)榭臻g關(guān)系,內(nèi)存的密度有所權(quán)衡——64 DIMM(每節(jié)點(diǎn)8條,每通道1條)。
PowerEdge FC430服務(wù)器節(jié)點(diǎn)主板示意圖
FC430專為HPC設(shè)計(jì)的InfiniBand接口
超高的計(jì)算密度,很容易讓人聯(lián)想到HPC高性能計(jì)算應(yīng)用。為此,F(xiàn)C430除了每節(jié)點(diǎn)2個(gè)1.8英寸SSD的存儲(chǔ)配置之外,還有一種單SSD配置——就是為了在前面板上增加一個(gè)InfiniBand高速網(wǎng)絡(luò)接口(下面有一張放大圖)。
值得一提的是,PowerEdge FC430還支持一種單插槽Xeon E5-1600 v3的配置,這就是針對(duì)HPC應(yīng)用中對(duì)主頻敏感的那些(單線程優(yōu)化)程序,可以選擇降低CPU核心數(shù)來提高主頻。
如上圖,我們可以看到FC430主板PCB上的元件密度,以及前端IB Mezz夾層擴(kuò)展卡插槽的位置。這對(duì)于服務(wù)器硬件設(shè)計(jì)能力也是一種考驗(yàn)。
據(jù)我們了解,國內(nèi)某高性能計(jì)算用戶選擇戴爾PowerEdge FX2平臺(tái)部署了超過200計(jì)算節(jié)點(diǎn)的FC430,由于機(jī)房設(shè)計(jì)合理,沒有遇到散熱和供電方面的問題。存儲(chǔ)方面采用Lustre集群,包括8個(gè)OSS(對(duì)象存儲(chǔ)服務(wù)器)節(jié)點(diǎn)。整體互連選擇了10Gb以太網(wǎng),配置Dell Networking Z9500萬兆交換機(jī)。
集中管理 CMC堆疊簡化網(wǎng)絡(luò)
如上圖,我們用紅圈標(biāo)出的部分是PowerEdge FX2機(jī)箱的CMC管理模塊,上面的Gb2網(wǎng)口可以用于堆疊模式。比如在一次測(cè)試中,10個(gè)機(jī)箱的CMC以菊花鏈形式連接在一起,相鄰的兩臺(tái)之間僅需要超短線纜,而對(duì)外只用一條上聯(lián)網(wǎng)線,可以顯著降低管理網(wǎng)絡(luò)的復(fù)雜度。
通過Chassis Group,多套PowerEdge FX2可以在單個(gè)界面中統(tǒng)一管理。
性能怪獸DSSD 在HPC存儲(chǔ)中的應(yīng)用案例
許多朋友應(yīng)該知道,Lustre和GPFS是HPC存儲(chǔ)使用最多的文件系統(tǒng),它們的共同特點(diǎn)是支持大規(guī)模集群并行提供高容量和高帶寬。那么隨著大數(shù)據(jù)分析在高性能計(jì)算中的增多,有沒有需要高IOPS、低延時(shí)存儲(chǔ)的場(chǎng)景呢?
位于美國德州Austin TACC(田納西高性能計(jì)算中心)的wrangler HPC系統(tǒng),戴爾作為硬件供應(yīng)商參與了該項(xiàng)目,提供服務(wù)器設(shè)備等。該項(xiàng)目最大的亮點(diǎn)是采用了EMC即將正式發(fā)布的閃存存儲(chǔ)DSSD。
DSSD本身閃亮的性能指標(biāo)我們就不再這里展開了,大家有興趣可以關(guān)注近日發(fā)布的消息。上圖引用自趙軍平老師的文章,在TACC這套HPC系統(tǒng)中,預(yù)期單計(jì)算節(jié)點(diǎn)的訪問性能即可達(dá)到最高12GB/s和超過200萬IOPS。
DSSD的另一大特色就是Key-Value對(duì)象訪問接口,包括原生REST API以及Hadoop插件;另外它也提供Block(塊)和POSIX兼容的文件訪問,其好處就是兼容Oracle數(shù)據(jù)庫等傳統(tǒng)應(yīng)用。
DSSD專門針對(duì)高性能數(shù)據(jù)密集型工作負(fù)載設(shè)計(jì),上圖中列出了它的部分應(yīng)用領(lǐng)域:(商業(yè))欺詐檢測(cè)、風(fēng)險(xiǎn)分析、預(yù)測(cè)模型、基于流式數(shù)據(jù)的準(zhǔn)實(shí)時(shí)分析、金融-交易模型、政府機(jī)構(gòu)-設(shè)計(jì)仿真、石油&天然氣-(地震數(shù)據(jù))求解仿真網(wǎng)格、生命科學(xué)&研究。
在這里面有許多屬于高性能計(jì)算領(lǐng)域,我們預(yù)計(jì)隨著戴爾與EMC的合并,新公司強(qiáng)有力的產(chǎn)品組合將提供更有競(jìng)爭力的HPC解決方案。
新一代網(wǎng)絡(luò)互連 100Gb的OPA要來了
伴隨單節(jié)點(diǎn)計(jì)算和存儲(chǔ)性能的不斷提高,網(wǎng)絡(luò)I/O瓶頸也需要突破。我們看到在存儲(chǔ)方面DSSD創(chuàng)新地采用了PCIe主機(jī)接口;而計(jì)算節(jié)點(diǎn)之間除了Mellanox 100Gb/s EDR InfiniBand之外,還有同樣帶寬、備受關(guān)注的下一代互連技術(shù)——為可擴(kuò)展HPC系統(tǒng)設(shè)計(jì)的Intel Omni-Path架構(gòu)(簡稱OPA)。
如上圖,戴爾與Intel合作,準(zhǔn)備了H系列OPA交換機(jī)和網(wǎng)卡。與同樣速率達(dá)到100Gb/s的以太網(wǎng)卡和IB HCA相似,OPA網(wǎng)卡也采用PCIe x16接口以滿足其帶寬。OPA的顛覆之處是將會(huì)集成到未來的Intel CPU當(dāng)中,屆時(shí)預(yù)計(jì)會(huì)迎來該技術(shù)在HPC乃至更多領(lǐng)域的爆發(fā)。
頂級(jí)計(jì)算密度、存儲(chǔ)“性能怪獸”、最快的網(wǎng)絡(luò)都準(zhǔn)備好了,戴爾HPC還差什么呢?