摘要:在二十世紀(jì)末,人們已經(jīng)對(duì)于之前的幾十年是全球信息技術(shù)(IT)時(shí)代到來的曙光形成了一致的共識(shí)。但是,在二十一世紀(jì)最初的幾年間,一切已經(jīng)變得很清楚:雖然技術(shù)可以歸功于上個(gè)世紀(jì),但信息技術(shù)已然有了新的定義。新世紀(jì)僅僅才過了15年,產(chǎn)生的海量數(shù)據(jù)量早已經(jīng)讓前幾代的數(shù)據(jù)量相形見絀,而且所有這些數(shù)據(jù)是開放的,準(zhǔn)備好了被實(shí)時(shí)進(jìn)行觀察和分析。
這顯著的市場(chǎng)趨勢(shì)已經(jīng)對(duì)企業(yè)產(chǎn)生了巨大的影響,使得企業(yè)已經(jīng)紛紛開始將信息技術(shù)作為他們業(yè)務(wù)流程的基礎(chǔ)資源,而不是作為跟蹤經(jīng)營(yíng)業(yè)績(jī)的手段。現(xiàn)在,企業(yè)不僅必須分析其業(yè)務(wù)數(shù)據(jù),還包括其他參數(shù),例如客戶和合作伙伴的真實(shí)體驗(yàn)或即將發(fā)生的事件對(duì)預(yù)期銷售的影響(根據(jù)以往的經(jīng)驗(yàn))。例如,一家大型零售企業(yè)已經(jīng)接受了大數(shù)據(jù),以優(yōu)化其數(shù)字化市場(chǎng)戰(zhàn)略,現(xiàn)在甚至已發(fā)展到了優(yōu)化其供應(yīng)鏈的階段。數(shù)據(jù)分析可用于優(yōu)化全方位渠道的供應(yīng)鏈,以確保為客戶,合作伙伴和員工提供高效,簡(jiǎn)化和統(tǒng)一的體驗(yàn)。這種方法允許零售商們得以確保第一時(shí)間掌握最新的趨勢(shì),并優(yōu)化倉(cāng)儲(chǔ)庫(kù)存配置,進(jìn)而使得企業(yè)營(yíng)收實(shí)現(xiàn)最大化,保證客戶的滿意度。
由于這些新的突破,企業(yè)IT部門不得不對(duì)現(xiàn)代化的數(shù)據(jù)中心基礎(chǔ)設(shè)施迅速作出反應(yīng),使其能夠應(yīng)對(duì)這些新的決策工作負(fù)載的苛刻的要求。
通過建立一個(gè)強(qiáng)大的能夠近乎實(shí)時(shí)的處理不斷增長(zhǎng)的海量數(shù)據(jù)的基礎(chǔ)設(shè)施,使得企業(yè)在現(xiàn)如今的“數(shù)據(jù)分析競(jìng)爭(zhēng)”中獲得了很好的開始。這些新的基礎(chǔ)設(shè)施應(yīng)該是基于最新的多核和多插座服務(wù)器,并結(jié)合了速度更快的基于Flash的軟件定義的存儲(chǔ)(SDS),最重要的是,通過高性能的軟件定義網(wǎng)絡(luò)(SDN)連接——其是快速、安全的數(shù)據(jù)通信,消除潛在的瓶頸,流量最大化,及滿足企業(yè)總擁有成本(TCO)關(guān)鍵的重要元素。
對(duì)高性能網(wǎng)絡(luò)的需求
為什么網(wǎng)絡(luò)性能在軟件定義的數(shù)據(jù)中心(SDDCs)如此重要?最主要的原因是,SDDC是基于現(xiàn)代橫向擴(kuò)展的規(guī)模化的架構(gòu),通過網(wǎng)絡(luò)連接商用服務(wù)器和存儲(chǔ)。連接越快,整個(gè)群集就越快。這方面的一個(gè)很好的例子是SDS系統(tǒng),其中數(shù)據(jù)可以駐留在任何物理服務(wù)器;數(shù)據(jù)通過網(wǎng)絡(luò)被傳送得越快,實(shí)現(xiàn)的效率就越高。
但是,只有帶寬是必須考慮的參數(shù)之一。另一重要的考慮因素是網(wǎng)絡(luò)的效率,這是由運(yùn)行通信任務(wù)所需要的CPU的百分比來測(cè)量的。通信所需要的CPU周期越多,用于運(yùn)行作業(yè)的CPU周期就越少。一個(gè)高效的網(wǎng)絡(luò)可以將來自CPU的通信任務(wù)卸載到I/O控制器,從而消除了I/O瓶頸,并帶來一個(gè)更均衡的集群。
高效網(wǎng)絡(luò)中所采用的最流行的技術(shù)之一是遠(yuǎn)程直接內(nèi)存訪問(RDMA)。基于RDMA的互連為提高數(shù)據(jù)中心的效率,降低整體的復(fù)雜性,提高數(shù)據(jù)傳送性能提供了理想的選擇。RDMA使數(shù)據(jù)的傳送能夠受到來自CPU的最小介入,而不需要多次復(fù)制該數(shù)據(jù),這在運(yùn)行TCP/IP以太網(wǎng)協(xié)議棧(見圖1)時(shí)是必需的。RDMA不僅釋放了CPU周期運(yùn)行應(yīng)用程序所需的昂貴的費(fèi)用,同時(shí)也最大限度地利用低抖動(dòng)減少了整體數(shù)據(jù)通信的延遲,使得整體的執(zhí)行時(shí)間更可預(yù)測(cè)。盡管如此,直到最近RDMA也只是在InfiniBand fabrics架構(gòu)可用。由于RoCE (RDMA over Converged Ethernet)的出現(xiàn),RDMA的好處現(xiàn)在在基于以太網(wǎng)或混合協(xié)議fabric架構(gòu)以及(IBTA)的數(shù)據(jù)中心也可用了?! ?/p>
圖:通過RDMA vs. TCP/IP 的數(shù)據(jù)通信。
RDMA over Converged Ethernet(RoCE)
RoCE借助以太網(wǎng)的發(fā)展,實(shí)現(xiàn)了RDMA over Ethernet的高效部署。能在主流數(shù)據(jù)中心應(yīng)用程序廣泛部署RDMA技術(shù)?;赗oCE的網(wǎng)絡(luò)管理與任何以太網(wǎng)是相同的,免除了IT管理人員學(xué)習(xí)新技術(shù)的需要。對(duì)于一處數(shù)據(jù)中心而言,RoCE的業(yè)務(wù)優(yōu)勢(shì)包括以下幾點(diǎn):
·無需更改數(shù)據(jù)中心基礎(chǔ)架構(gòu)
·在跨10/25/40/50/100GbE的網(wǎng)絡(luò)I/O在一個(gè)單一的線統(tǒng)一
·延續(xù)現(xiàn)有的數(shù)據(jù)中心管理基礎(chǔ)設(shè)施
·降低能耗,從而實(shí)現(xiàn)了成本節(jié)約
·保持現(xiàn)有和將來應(yīng)用程序的兼容性
·通過I/O統(tǒng)一的單芯片解決方案顯著節(jié)省了CAPEX和OPEX
RoCE互連已經(jīng)在大型云服務(wù)供應(yīng)商被大量部署,包括諸如微軟的Azure,在企業(yè)數(shù)據(jù)中心和融合的基礎(chǔ)設(shè)施系統(tǒng)。此外,在Ignite'15大會(huì)上,微軟展示了他們的Windows Server 2016 SDS解決方案,跨100Gb/s以太網(wǎng)和RoCE的存儲(chǔ)空間。四核心運(yùn)行傳輸協(xié)議,同時(shí)NVMe固態(tài)硬盤為存儲(chǔ)提供了高帶寬。其結(jié)果清楚地顯示了RoCE較之TCP/IP以太網(wǎng)所提供的優(yōu)勢(shì),可實(shí)現(xiàn)2倍多的吞吐量(92Gb/s versus 54Gb/s)和少50%的延遲。此外,其顯示了2倍的CPU效率改進(jìn):當(dāng)運(yùn)行在TCP/IP協(xié)議時(shí),所有的四核得到充分利用,而RoCE使用的周期小于50%,留下更多的CPU周期來運(yùn)行應(yīng)用程序,從而實(shí)現(xiàn)更高的效率?! ?/p>
圖:TCP / IP充分利用所有四個(gè)核心被分配給運(yùn)行傳輸協(xié)議。
iSCSI Extensions for RDMA (iSER)
除了通過RDMA的服務(wù)器到服務(wù)器的通信,IBTA也標(biāo)準(zhǔn)化了通過RDMA (iSER)的iSCSI,這是一個(gè)擴(kuò)展了互聯(lián)網(wǎng)小型計(jì)算機(jī)系統(tǒng)接口(iSCSI)協(xié)議以使用遠(yuǎn)程RDMA的計(jì)算機(jī)網(wǎng)絡(luò)協(xié)議。其基本上采用上層的iSCSI進(jìn)行會(huì)話管理、發(fā)現(xiàn)、恢復(fù)等;其因此能夠與所有iSCSI所支持的特性和功能兼容。但是,較之基于軟件的iSCSI適配器,如VMware的iSCSI適配器,使用iSER能夠通過以下機(jī)制消除瓶頸:
·通過RDMA技術(shù)iSER使用零拷貝
·iSER CRC由硬件計(jì)算
·iSER適用于消息邊界,而不是數(shù)據(jù)流
·iSER傳輸協(xié)議是在硬件中實(shí)現(xiàn)的(最小化每個(gè)I/O 的CPU周期)
圖:使用iSER實(shí)現(xiàn)更高的吞吐量和更高的IOPS(ESXi 5.X,2 臺(tái)虛擬機(jī),每臺(tái)虛擬機(jī)2 LUN)。
RoCE和iSER的互連也僅次于戴爾的Fluid緩存的SAN解決方案,其采用了分布式的緩存機(jī)制,以盡量減少物理存儲(chǔ)的訪問。該解決方案,首次是在2013年的戴爾世界大會(huì)上演示的,通過允許虛擬機(jī)訪問在另一臺(tái)虛擬機(jī)的緩存中存儲(chǔ)的數(shù)據(jù)最大限度地提升集群的性能。此任務(wù)需要高帶寬和低延遲的互連?! ?/p>
圖:Oracle RAC SAN性能的跨流緩存。
其結(jié)果令人印象深刻。該解決方案達(dá)到500萬(wàn)隨機(jī)讀取IOPS(每秒的輸入/輸出)。當(dāng)運(yùn)行一個(gè)Oracle工作負(fù)載基準(zhǔn)的聯(lián)機(jī)事務(wù)處理(OLTP)時(shí),戴爾SAN流緩存還能夠?qū)崿F(xiàn):
·快99%的響應(yīng)時(shí)間
·每秒傳輸增加4倍
·并發(fā)用戶增加6倍
戴爾也通過戴爾實(shí)驗(yàn)室測(cè)試的硬件堆棧,啟用戴爾流緩存SAN,在VMware軟件上運(yùn)行微軟SQL Server數(shù)據(jù)庫(kù)帶來了顯著的性能改進(jìn)。(http://marketing.dell.com/SQLServer-OLTP)
高效的網(wǎng)絡(luò)提高投資回報(bào)率(ROI)
RDMA所帶來的網(wǎng)絡(luò)性能的提升,對(duì)數(shù)據(jù)中心的投資回報(bào)率帶來了顯著的影響。在一個(gè)跨10Gb/s的RoCE與10Gb/s以太網(wǎng)建立了一個(gè)虛擬桌面基礎(chǔ)架構(gòu)(VDI)的基準(zhǔn),RoCE能夠提供為每臺(tái)服務(wù)器提供2.5倍的虛擬桌面(140比60)。
當(dāng)進(jìn)行一個(gè)運(yùn)行5000臺(tái)虛擬桌面的ROI分析時(shí),RoCE僅在硬件上就可以節(jié)省336400美元??紤]到軟件許可費(fèi)用和運(yùn)營(yíng)成本,其總的節(jié)約可以很容易地達(dá)到(甚至超過)500000美元?! ?/p>
圖:當(dāng)運(yùn)行5000臺(tái)虛擬桌面時(shí),節(jié)省高達(dá)73萬(wàn)美元,假設(shè)SSD滿載服務(wù)器的成本是6800美元,48×10GbE端口交換機(jī)成本為10000美元。
總結(jié):RDMA助力企業(yè)成功
存儲(chǔ)和快速分析大量的數(shù)據(jù)的能力已經(jīng)成為一種顯著的競(jìng)爭(zhēng)力,有助于重塑數(shù)據(jù)中心和應(yīng)用程序架構(gòu),以及轉(zhuǎn)變IT資源和應(yīng)用程序的創(chuàng)建、購(gòu)買和管理方式。
企業(yè)IT團(tuán)隊(duì)不能忽視與建立正確的數(shù)據(jù)中心基礎(chǔ)設(shè)施,以支持這些新的任務(wù)關(guān)鍵型業(yè)務(wù)流程相關(guān)的技術(shù)挑戰(zhàn)。因此,當(dāng)務(wù)之急是,必須部署最高效的基礎(chǔ)設(shè)施,以支持和滿足新的要求。
借助RDMA功能的互連構(gòu)建軟件定義的數(shù)據(jù)中心基礎(chǔ)設(shè)施,有助于提高經(jīng)營(yíng)績(jī)效,同時(shí)降低IT運(yùn)營(yíng)成本,幫助企業(yè)在其業(yè)務(wù)的各個(gè)方面獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。
關(guān)于作者
本文作者M(jìn)otti Beck是Mellanox Technologies公司的企業(yè)市場(chǎng)開發(fā)總監(jiān)。在加入Mellanox公司之前,Motti曾是包括BindKey Technologies公司和Butterfly Communications在內(nèi)的一系列初創(chuàng)公司的創(chuàng)始人,BindKey Technologies由DuPont Photomask收購(gòu),而Butterfly Communications被Texas Instruments所收購(gòu)。他以前是National Semiconductor的一名業(yè)務(wù)部門負(fù)責(zé)人。Motti持有以色列理工學(xué)院計(jì)算機(jī)工程學(xué)士學(xué)位。您可以在推特上關(guān)注他:@mottibeck。