當前位置：服務器 → 行業動態 → 正文

借助智能型服務器適配器提升性價比（第二部分）

責任編輯：editor004 作者：Nick Tausanovitch |來源：企業網D1Net 2016-01-21 10:48:35 本文摘自：機房360

摘要：本文是針對在基于主機的網絡應用程序中采用通用CPU的相關優勢及陷阱進行深入挖掘分析，并就當前被用于基于主機的網絡以提供更好性價比的不同服務器網絡硬件技術進行探討的系列文章的第二部分。在本系列文章的第一部分中，我們主要關注了基于主機的網絡的硬件加速的潛在問題及重要性。而在本文中，我們將探討當前被用于這類智能服務器適配器的三大基本技術，并將就提供最佳性價比的基于主機的網絡的解決方案提供相應的指導和建議。

對于那些部署或評估基于主機的網絡應用程序的數據中心運營商們而言，他們將面臨如何成本有效地采用基于COTS(商用現成品或技術，Commercial-off-the-shelf)的服務器平臺將其企業網絡規模化擴展到10，25，40乃至50GbE網絡的挑戰。正如我們在前一部分的文章中所介紹的那樣，諸如vSwitches這樣基于主機的網絡功能，完全是以軟件的形式部署實現的，而由于在數據面板處理過程中，價格高昂的x86 CPU內核相當耗能，其在10GbE和更高速度的網絡中無疑是成本昂貴且低效的。故而，本文特別針對各種基于主機的聯網方式的性價比進行了比較。

涉及到純軟件實施部署的根本問題是：當涉及到數據包時，隧道和數據流處理時，x86架構的能力與基于主機的聯網處理的基本要素根本不匹配。這是因為x86及其他針對計算服務器的通用型處理體系結構是用于在操作系統環境中運行復雜和相對長時間運行的應用程序，進行了設計優化。這種方法非常適合服務器應用程序，但當涉及到基于主機的網絡時，它不一定是最好的策略。為了更好的了解x86服務器這些優先事項，我們建議您參考下圖所示的Sandy Bridge裝置的芯片級視圖。

　　圖1：英特爾x86：優化的服務器，而不是基于主機的網絡。

在傳統的操作系統環境下運行優化的通用計算應用程序的需要，為CPU處理器架構帶來了大量的復雜化。x86內核加載的功能包括了擁有諸如相當漫長而復雜的超標量處理管道、推測執行和分支預測，大的緩存和MMU以支持虛擬內存等的諸多功能，所有這些功能都造成了每個內核的大型芯片面積(die area)。需要大規模的L3緩存以支持非常大的程序和外部存儲器中的數據集，但基于主機的網絡數據路徑程序和數據都比較小，在一個單獨的配置中并不需要L3。同樣，在x86的圖形處理和浮點單元也不需要數據路徑處理。由于這些服務器類的功能極大地推動了處理器芯片的規模，卻并沒有增加基于主機的網絡功能的工作輸出，他們極大地降低了整體解決方案的性價比。

事實上，將x86應用于基于主機的網絡就像是試圖用柴火來牽引法拉利一樣：這根本就不是可以用來完成工作的正確工具，其成本太過于昂貴而不能實現。這個問題目前已得到了廣泛的認可，而自然反應一直在追求純軟件的優化。諸如像數據面開發工具套件( Data Plane Development Kit，DPDK)這樣的技術旨在通過提高緩存利用率，并消除中斷處理的能耗來改善x86 CPU在網絡應用程序的性能。同時通過減少處理器閑置空轉的百分比提供適度的改善，這種方法不能克服上述基本架構的限制，因此進一步的有效的改進將是相當有限的。

x86基于軟件的替代方案

在x86 CPU上基于主機的網絡軟件提供良好的性價比的失敗為追求成本有效地規模化擴展到10，25，40，50和100GbE線路速率的替代解決方案帶來了積極的動力。而其中一款替代方案方法便是配備了MIPS- 或基于ARM多核系統單芯片(System-on-a-chip,SoC)技術的智能服務器適配器。在該模型中，SoC部署在基于主機的網絡數據路徑，整個軟件完全運行在的SoC處理核心。這樣做雖然卸載了服務器，但這并不改變基本的處理范式：SoC的方法受到與x86 相同的基本架構局限。這是因為這些SoC設備的架構是首先是針對服務器市場優化的，然后才是被用于服務器適配器，所以上述適用于x86的效率低下的問題在這里依然存在。這種方法只是對處理資源的一種再分配，對提高整體解決方案的效率和性價比沒有太大的效果。其缺點是顯而易見的，基于SoC的服務器適配器根本很難實現線速，而在當前的網絡所部署的最大數據包大小則是20Gbps。

另一個經常被討論的替代方案也是十分相似的：利用現場可編程門陣列FPGA(Field-Programmable Gate Array)。最近有文章介紹了FPGA對于涉及到在數據中心網頁搜索特定算法的相關的加速的好處(1)。甚至還有人建議針對基于主機的網絡的數據面處理采用同樣的方式。但對于基于主機的網絡采用FPGA的效率和成本效益尚未得到證實，而基于下文所指出的各種原因，其獲得廣泛采用似乎不大可能。

FPGA適合于重復的，細粒度性質的明確的任務，如圖像和信號處理、壓縮/解壓縮、加密，等等。它們通常比在通用處理器上運行的軟件能夠更高效地執行這些任務。然而，對于那些復雜的、可變的和不規則的處理任務，需要進行分組處理的，FPGA處理起來則是不佳的。所需要的功能，如分支、位操作、封裝和過濾等，會為FPGA在實現網絡數據路徑時造成很大的困難。

此外，較之標準的ASIC技術，FPGA產生一個巨大的面積效率(area-efficiency)的損失，其在非常具體的用例之外很難克服。在FPGA中的可編程互連基礎設施消耗大量的芯片面積，導致較之基于ASIC的設計，會產生單位面積大約20-30倍的低效邏輯網關，和12倍多的動態功率等效功能(2)。鑒于服務器適配器的芯片面積的上限是由成本和功耗的共同點所驅動，FPGA是在性能效率方面具有顯著劣勢。

此外，FPGA中的主要好處之一，便是通過重新編程適應功能的能力，其往往是在相當有限的實踐中。顯著更改數據路徑可能不適合或在目標設備的路徑，或者可能無法達到同一目標的工作頻率。此外，FPGA的一般程序使用深奧的硬件描述語言，如Verilog或VHDL，并且需要具備良好性能的手工編碼。通過利用C語言的OpenCL和其他方法支持的FPGA編程改進能夠帶來簡化的開發，但只有在犧牲更高的效率，并以進一步削弱性價比為代價。

我們只需要回顧歷史，看看FPGA一直被用于網絡數據路徑的利基應用。通常情況下，他們作為一個權宜之計，直到更多高效專用解決方案變得可用。事實上，FPGA的使用常常是作為一個產品存在差距的指示器，而如果差距是在一個有著足夠的市場規模的領域，專用解決方案將不可避免地被開發。

基于所有上述原因，搭載多核SoC或FPGA的智能服務器適配器顯然缺乏適應當今和未來的基于主機的網絡應用程序所需的伸縮性和可擴展性。當然，這是一個我們所熟悉的主題。而業界也在不斷試圖為新應用程序重新使用現有技術，其已被證明是有必要的，以新的和專門構建的技術適應新的網絡加速效率規模和要求。

專用解決方案演進成為主流

當可用的解決方案無法滿足新興的和令人信服的用例的需要，特制的解決方案就將不可避免地演變作為補充，有時甚至會取代他們。在上世紀90年代， IP路由器就已經被部署在了所有通用CPU的軟件上了，但由于互聯網帶動流量的增長，所導致的更高的性能和規模的爆炸性需求，網絡處理器誕生了。 ATM演變為專門構建的和有針對性的技術預期，部分以適應融合多種通信流量類型的需求。 MPLS演變的下一步是作為一個擴展的以太網，納入最佳ATM作為一款卓越的解決方案，擴展基于2層和第3層的VPN。這些技術的初步實現往往發生在FPGA中，但很快，ASSP被開發，可以提供更好的性價比，以執行這些功能，導致其成為主流。

類似的發展演變也在InfiniBand和RoCE發生。RoCE適配器是專為使用率很低的低延遲和大規模數據傳輸的CPU而打造的。由于該解決方案提供了優越的性價比和可擴展性，它能夠克服那些已經被視為顯著的障礙：使用InfiniBand傳輸層和IBTA定義相對于TCP / IP和傳統套接字接口更熟悉。它的優勢占了上風，并逐步增長，而RoCE 目前已經更新到第2版，增加了對路由和部署跨3層網絡的支持。雖然RoCE 最初實施主要是在服務器的軟件上，其處理負擔則是非常高的，這推動了具體解決方案以服務器適配器的ASSP形式支持RoCE 直接從硬件卸載，現在成為主流。

特制的技術從專門到主流部署的發展演變作為更具成本效益的方法，意味著適應不斷變化的需求，演化示圖見下圖2。除了IP / ATM / MPLS和RoCE，圖中還展示出了專用3D圖形技術集成到現在已經在電腦普及，提供了最初軟件在服務器上實現的功能的主流的基于GPU的產品然后轉移到一個專用的加速器的演變的另一個很好的例子，最后以GPU適配器的形式成為主流應用。同樣的進化過程中也開始在基于主機的網絡使用情況中出現，并產生了一個新的專用技術：網絡流處理器(NFP)。　　

　　圖2：專用目的構建的技術找到成為主流部署的方式。

網絡流處理器：專為基于主機的網絡構建的克服多核SoC和FPGA的性能和可擴展性限制需要解決造成這些局限性的根本原因。基于NFP的智能服務器適配器能夠從10Gbps有效擴展到100Gbps的吞吐量，提供超過現有基于軟件的解決方案，帶來一個數量級的性能提升。圖3顯示出了用于一個公共的基于主機的網絡數據面應用程序的吞吐量比較，開源的vSwitch(OVS)。如圖所示，對于等量的x86 CPU資源(單核的x86)，基于NFP的智能服務器適配器在數據包吞吐量方面提供超過20倍的改善提高，從而極大地提高了性價比。　　

　　圖3：使用基于NFP的智能服務器適配器的基于主機的網絡性能。

雖然我們預計其他基于MSOC或FPGA的智能服務器適配器能夠至少在性價比方面能有所改善，但并不是所有的這種適配器都是一樣的。在本系列文章的第三部分，也即最后一篇文章中，我們將為您概述在評估基于主機的網絡應用的智能服務器適配器時，會對您有所幫助的幾個重要特征。

索引：

(1)微軟《大型數據中心服務的加速重配置結構》

(2)《FPGA和ASIC之間的差距測量》伊恩久遠和喬納森玫瑰，，多倫多大學電氣與計算機工程系 Ian Kuon和Jonathan Rose合著

關于作者

本文作者Nick Tausanovitch擁有電子和網絡相關行業超過25年的經驗，從業的范圍涵蓋了從FPGA和芯片設計到系統架構和產品營銷。Nick目前是Netronome公司解決方案架構資深總監，他主要負責該公司的數據中心應用程序企業智能服務器適配器產品。此前，他曾負責Broadcom公司的高端網絡處理器產品線。在此之前，Nick曾擔任IDT公司的電子設計主管，在那里他開發了TCAMs和搜索引擎算法。并曾在Nortel公司擔任過系統架構師，負責開發交換機、路由器和網絡處理器。Nick持有羅切斯特大學的電氣工程科學學士學位及紐約大學理工學院電氣工程碩士學位。

關鍵字：適配器性價比 FPGA