當(dāng)前位置：服務(wù)器 → 企業(yè)動(dòng)態(tài) → 正文

存儲(chǔ)“性能怪獸”、最快的網(wǎng)絡(luò)都準(zhǔn)備好了，戴爾HPC還差什么？

責(zé)任編輯：cres 作者：唐僧 |來源：企業(yè)網(wǎng)D1Net 2016-03-09 11:39:57 本文摘自：戴爾企業(yè)級(jí)解決方案

引言

大數(shù)據(jù)已成為HPC最重要的應(yīng)用領(lǐng)域，戴爾PowerEdge FX2集刀片和多節(jié)點(diǎn)機(jī)架式服務(wù)器的技術(shù)優(yōu)勢(shì)于一身，不僅為用戶化解計(jì)算密度、空間占用、網(wǎng)絡(luò)布線的權(quán)衡之困，更令用戶輕松獲得頂級(jí)計(jì)算密度、存儲(chǔ)性能，以及超快網(wǎng)絡(luò)應(yīng)用。

在之前的《從HPC到大數(shù)據(jù)：戴爾-Intel Lustre存儲(chǔ)解決方案》一文中，我們?cè)?jīng)談到用于高性能計(jì)算的文件系統(tǒng)已經(jīng)開始添加大數(shù)據(jù)（Hadoop）方面的支持。

如上圖，從中國超算Top100來看大數(shù)據(jù)已經(jīng)成為HPC最重要的應(yīng)用領(lǐng)域。

那么，大數(shù)據(jù)分析對(duì)高性能計(jì)算設(shè)備——服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)方面有什么新的要求嗎？在本文中我們?nèi)跃劢够A(chǔ)架構(gòu)，為大家介紹上述領(lǐng)域的創(chuàng)新，包括幾款已經(jīng)或者即將發(fā)布的特色產(chǎn)品，以及真實(shí)的客戶案例。

HPC服務(wù)器進(jìn)化方向計(jì)算密度、GPU/協(xié)處理器

這張圖是戴爾服務(wù)器產(chǎn)品線在HPC計(jì)算單元中的布局，藍(lán)色箭頭最底下一行是通用節(jié)點(diǎn)，即標(biāo)準(zhǔn)化的1U/2U/4U服務(wù)器。上面則是HPC優(yōu)化型產(chǎn)品，最左邊的PowerEdge C4130是1U高度，支持4塊NVIDIA Tesla GPU或者Intel Xeon Phi co-processors計(jì)算加速卡；C6320則是比較典型的2U 4節(jié)點(diǎn)；安裝FC430節(jié)點(diǎn)高密度CPU的FX2是本文要討論的重點(diǎn)；再往右有M630刀片服務(wù)器；最右邊是定制的模塊化數(shù)據(jù)中心。

HPC應(yīng)用多為大規(guī)模集群部署，計(jì)算密度直接關(guān)系著空間占用，進(jìn)而影響到機(jī)房設(shè)計(jì)、網(wǎng)絡(luò)布線等方面。早期的計(jì)算能力基本上是堆CPU；后來隨著GPU/協(xié)處理器在通用計(jì)算領(lǐng)域的應(yīng)用，算是第二個(gè)設(shè)計(jì)方向。當(dāng)然后者還要特別考慮編程和效率的問題。

本文討論重點(diǎn)之一就是提高HPC的CPU計(jì)算密度。

服務(wù)器形態(tài)進(jìn)化來自Dell的極限密度

回首當(dāng)年，服務(wù)器從機(jī)架式衍生出刀片式，不僅提高了計(jì)算密度，集成了網(wǎng)絡(luò)交換單元，還可以集成共享存儲(chǔ)單元（DAS或者iSCSI刀片存儲(chǔ)模塊）。刀片最大的優(yōu)勢(shì)是管理，能降低運(yùn)維工作量。

曾經(jīng)有一段時(shí)間，連超大型HPC集群都開始選擇刀片式服務(wù)器。不過一方面它在同等計(jì)算能力下的成本要高于機(jī)架式服務(wù)器，另一方面它的計(jì)算密度還有沒有可能再提高？

于是在數(shù)年前，開始出現(xiàn)一些多節(jié)點(diǎn)機(jī)架式服務(wù)器，比如1U雙節(jié)點(diǎn)、2U四節(jié)點(diǎn)——被人們稱為雙子星和四子星。在保持刀片計(jì)算密度的同時(shí)，成本上顯著降低，加上機(jī)架空間的節(jié)省，TCO比傳統(tǒng)機(jī)架式服務(wù)器還要低，因此受到一些云計(jì)算和HPC用戶的青睞，比如戴爾PowerEdge C系列中的C6320。

多節(jié)點(diǎn)機(jī)架式服務(wù)器中目前最流行的就是2U四節(jié)點(diǎn)，門檻不高（自己做不了的品牌可以找ODM供應(yīng)商）。與刀片相比，它們沒有集成網(wǎng)絡(luò)交換和強(qiáng)大的管理功能；與機(jī)架式相比，它們的存儲(chǔ)和I/O擴(kuò)展性一般；為了優(yōu)先考慮成本，品質(zhì)上就可能有所取舍。

當(dāng)我們看到戴爾PowerEdge FX2時(shí)，第一印象是它集合了刀片和多節(jié)點(diǎn)機(jī)架式服務(wù)器的技術(shù)優(yōu)勢(shì)。首先是計(jì)算密度——2U內(nèi)最多可以支持8個(gè)雙插槽Xeon CPU節(jié)點(diǎn)；其次是靈活性——可選多種服務(wù)器節(jié)點(diǎn)；還有擴(kuò)展性——包括可拆分的DAS存儲(chǔ)節(jié)點(diǎn)、多種網(wǎng)絡(luò)直通/交換模塊；以及CMC機(jī)箱集中式管理。

戴爾PowerEdge FX2組件全家福

以上是PowerEdge FX2模塊化系統(tǒng)支持的組件，這里除了服務(wù)器節(jié)點(diǎn)、還包括存儲(chǔ)單元和網(wǎng)絡(luò)交換模塊（I/O聚合器）。圖中的數(shù)量比較多，是因?yàn)槊糠N型號(hào)還有不同的硬盤/SSD驅(qū)動(dòng)器托架可選。

正是這種靈活性，使FX2可以有多種應(yīng)用方向，比如我們?cè)凇队布o助超融合：任意云中的全閃存VSAN》一文中介紹的分布式存儲(chǔ)/超融合。而本文既然是談HPC，自然是討論計(jì)算密度最高的FC430。

使用當(dāng)前Intel Xeon處理器的FX2 w/FC430，計(jì)算性能密度可達(dá)業(yè)界領(lǐng)先的4.1TFLOPS/U

PowerEdge FC430的一大特點(diǎn)就是超高的計(jì)算密度——2U 8個(gè)1/4寬度雙插槽節(jié)點(diǎn)，盡管由于功耗和散熱的限制，它只支持到14核Xeon E5-2600v3 CPU，但2U內(nèi)密度已高達(dá)224 core，因?yàn)榭臻g關(guān)系，內(nèi)存的密度有所權(quán)衡——64 DIMM（每節(jié)點(diǎn)8條，每通道1條）。

PowerEdge FC430服務(wù)器節(jié)點(diǎn)主板示意圖

FC430專為HPC設(shè)計(jì)的InfiniBand接口

超高的計(jì)算密度，很容易讓人聯(lián)想到HPC高性能計(jì)算應(yīng)用。為此，F(xiàn)C430除了每節(jié)點(diǎn)2個(gè)1.8英寸SSD的存儲(chǔ)配置之外，還有一種單SSD配置——就是為了在前面板上增加一個(gè)InfiniBand高速網(wǎng)絡(luò)接口（下面有一張放大圖）。

值得一提的是，PowerEdge FC430還支持一種單插槽Xeon E5-1600 v3的配置，這就是針對(duì)HPC應(yīng)用中對(duì)主頻敏感的那些（單線程優(yōu)化）程序，可以選擇降低CPU核心數(shù)來提高主頻。

如上圖，我們可以看到FC430主板PCB上的元件密度，以及前端IB Mezz夾層擴(kuò)展卡插槽的位置。這對(duì)于服務(wù)器硬件設(shè)計(jì)能力也是一種考驗(yàn)。

據(jù)我們了解，國內(nèi)某高性能計(jì)算用戶選擇戴爾PowerEdge FX2平臺(tái)部署了超過200計(jì)算節(jié)點(diǎn)的FC430，由于機(jī)房設(shè)計(jì)合理，沒有遇到散熱和供電方面的問題。存儲(chǔ)方面采用Lustre集群，包括8個(gè)OSS（對(duì)象存儲(chǔ)服務(wù)器）節(jié)點(diǎn)。整體互連選擇了10Gb以太網(wǎng)，配置Dell Networking Z9500萬兆交換機(jī)。

集中管理 CMC堆疊簡化網(wǎng)絡(luò)

如上圖，我們用紅圈標(biāo)出的部分是PowerEdge FX2機(jī)箱的CMC管理模塊，上面的Gb2網(wǎng)口可以用于堆疊模式。比如在一次測(cè)試中，10個(gè)機(jī)箱的CMC以菊花鏈形式連接在一起，相鄰的兩臺(tái)之間僅需要超短線纜，而對(duì)外只用一條上聯(lián)網(wǎng)線，可以顯著降低管理網(wǎng)絡(luò)的復(fù)雜度。

通過Chassis Group，多套PowerEdge FX2可以在單個(gè)界面中統(tǒng)一管理。

性能怪獸DSSD 在HPC存儲(chǔ)中的應(yīng)用案例

許多朋友應(yīng)該知道，Lustre和GPFS是HPC存儲(chǔ)使用最多的文件系統(tǒng)，它們的共同特點(diǎn)是支持大規(guī)模集群并行提供高容量和高帶寬。那么隨著大數(shù)據(jù)分析在高性能計(jì)算中的增多，有沒有需要高IOPS、低延時(shí)存儲(chǔ)的場(chǎng)景呢？

位于美國德州Austin TACC（田納西高性能計(jì)算中心）的wrangler HPC系統(tǒng)，戴爾作為硬件供應(yīng)商參與了該項(xiàng)目，提供服務(wù)器設(shè)備等。該項(xiàng)目最大的亮點(diǎn)是采用了EMC即將正式發(fā)布的閃存存儲(chǔ)DSSD。

DSSD本身閃亮的性能指標(biāo)我們就不再這里展開了，大家有興趣可以關(guān)注近日發(fā)布的消息。上圖引用自趙軍平老師的文章，在TACC這套HPC系統(tǒng)中，預(yù)期單計(jì)算節(jié)點(diǎn)的訪問性能即可達(dá)到最高12GB/s和超過200萬IOPS。

DSSD的另一大特色就是Key-Value對(duì)象訪問接口，包括原生REST API以及Hadoop插件；另外它也提供Block（塊）和POSIX兼容的文件訪問，其好處就是兼容Oracle數(shù)據(jù)庫等傳統(tǒng)應(yīng)用。

DSSD專門針對(duì)高性能數(shù)據(jù)密集型工作負(fù)載設(shè)計(jì)，上圖中列出了它的部分應(yīng)用領(lǐng)域：（商業(yè)）欺詐檢測(cè)、風(fēng)險(xiǎn)分析、預(yù)測(cè)模型、基于流式數(shù)據(jù)的準(zhǔn)實(shí)時(shí)分析、金融-交易模型、政府機(jī)構(gòu)-設(shè)計(jì)仿真、石油&天然氣-（地震數(shù)據(jù)）求解仿真網(wǎng)格、生命科學(xué)&研究。

在這里面有許多屬于高性能計(jì)算領(lǐng)域，我們預(yù)計(jì)隨著戴爾與EMC的合并，新公司強(qiáng)有力的產(chǎn)品組合將提供更有競(jìng)爭力的HPC解決方案。

新一代網(wǎng)絡(luò)互連 100Gb的OPA要來了

伴隨單節(jié)點(diǎn)計(jì)算和存儲(chǔ)性能的不斷提高，網(wǎng)絡(luò)I/O瓶頸也需要突破。我們看到在存儲(chǔ)方面DSSD創(chuàng)新地采用了PCIe主機(jī)接口；而計(jì)算節(jié)點(diǎn)之間除了Mellanox 100Gb/s EDR InfiniBand之外，還有同樣帶寬、備受關(guān)注的下一代互連技術(shù)——為可擴(kuò)展HPC系統(tǒng)設(shè)計(jì)的Intel Omni-Path架構(gòu)（簡稱OPA）。

如上圖，戴爾與Intel合作，準(zhǔn)備了H系列OPA交換機(jī)和網(wǎng)卡。與同樣速率達(dá)到100Gb/s的以太網(wǎng)卡和IB HCA相似，OPA網(wǎng)卡也采用PCIe x16接口以滿足其帶寬。OPA的顛覆之處是將會(huì)集成到未來的Intel CPU當(dāng)中，屆時(shí)預(yù)計(jì)會(huì)迎來該技術(shù)在HPC乃至更多領(lǐng)域的爆發(fā)。

頂級(jí)計(jì)算密度、存儲(chǔ)“性能怪獸”、最快的網(wǎng)絡(luò)都準(zhǔn)備好了，戴爾HPC還差什么呢？