在云計(jì)算時(shí)代數(shù)據(jù)中心規(guī)模將擴(kuò)展到成千上萬(wàn)臺(tái)服務(wù)器,然而,在大規(guī)模數(shù)據(jù)中心的集群計(jì)算環(huán)境中,節(jié)點(diǎn)之間的通信帶寬日益成為主要瓶頸,IT系統(tǒng)架構(gòu)師們正在尋求這些服務(wù)器網(wǎng)絡(luò)連接的更好途徑,以提高性能、減少成本和能耗并支持無(wú)縫橫向擴(kuò)展,分布式核心網(wǎng)絡(luò)為應(yīng)對(duì)這些挑戰(zhàn)提供新思路和新方法。
“大數(shù)據(jù)”(Big Data)的挑戰(zhàn)
日益增多的網(wǎng)站、門戶、搜索引擎和分析應(yīng)用程序正在處理非常大的數(shù)據(jù)集,即所謂“大數(shù)據(jù)”。大數(shù)據(jù)就是一些數(shù)據(jù)集,其規(guī)模超過(guò)了常用軟件工具在可容忍的流逝的時(shí)間內(nèi)對(duì)其進(jìn)行捕捉、管理和處理的能力。大數(shù)據(jù)規(guī)模從包含幾TB到幾PB數(shù)據(jù)集不等,要求高性能系統(tǒng)實(shí)時(shí)地或者接近實(shí)時(shí)地處理大量數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù)包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘網(wǎng)格計(jì)算、Apache Hadoop框架、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、Map Reduce算法、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和歸檔存儲(chǔ)系統(tǒng)。大數(shù)據(jù)一般采用龐大的計(jì)算集群和先進(jìn)技術(shù)及算法來(lái)減少數(shù)據(jù)集,并控制數(shù)據(jù)如何進(jìn)出服務(wù)器,需要以非常高速和高性能的方式連接計(jì)算機(jī)的最新網(wǎng)絡(luò)架構(gòu)。目前,各個(gè)網(wǎng)絡(luò)廠商正在以支持大型計(jì)算集群的新網(wǎng)絡(luò)架構(gòu)配置來(lái)應(yīng)對(duì)這些需求。傳統(tǒng)分層網(wǎng)絡(luò)(圖1)分為核心層、匯聚層和接入層,對(duì)于擔(dān)負(fù)以往工作負(fù)載的數(shù)據(jù)中心是也許適用的。
圖1 傳統(tǒng)三層數(shù)據(jù)中心架構(gòu)
當(dāng)通信方式以南北方向(換句話說(shuō),就是進(jìn)出數(shù)據(jù)中心的通信)占主導(dǎo)地位的時(shí)候,傳統(tǒng)數(shù)據(jù)中心三層架構(gòu)還是具有優(yōu)勢(shì)的。但是當(dāng)通信以東西方向?yàn)橹鲗?dǎo)地位時(shí)候(如計(jì)算集群或虛擬化計(jì)算,如圖2),分布式核心架構(gòu)就非常適合。
圖2 新一代數(shù)據(jù)中心流量模型
分布式核心網(wǎng)絡(luò)架構(gòu)
分布式核心網(wǎng)絡(luò)是戴爾Force10專門研發(fā)的、高性能網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)性能能夠升級(jí)到每秒160TB以上,如圖3。分布式核心架構(gòu)也稱為“leaf-spine架構(gòu)”,它包括兩種類型節(jié)點(diǎn): 一種節(jié)點(diǎn)連接服務(wù)器和架頂設(shè)備(leaf節(jié)點(diǎn)),第二種節(jié)點(diǎn)連接交換機(jī)(spine節(jié)點(diǎn)),leaf-spine系統(tǒng)架構(gòu)內(nèi)的任意兩個(gè)端口之間提供延遲非常低的無(wú)阻塞性能,從而實(shí)現(xiàn)3級(jí)Clos網(wǎng)絡(luò)。
圖3 開放分布式核心大型數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)
分布式核心架構(gòu)優(yōu)勢(shì)
·節(jié)約成本。分布式核心架構(gòu)通過(guò)使用多個(gè)低成本的以太網(wǎng)交換機(jī)進(jìn)行大規(guī)模升級(jí),不需要傳統(tǒng)昂貴的機(jī)箱交換系統(tǒng),無(wú)需單獨(dú)板卡升級(jí)。
·高性能。任意點(diǎn)對(duì)點(diǎn)通信都有100%的均分帶寬。
·集群工作負(fù)載優(yōu)化。任何主機(jī)都能夠以其網(wǎng)卡的100%帶寬與網(wǎng)絡(luò)內(nèi)的任何其它主機(jī)進(jìn)行通信。
·超級(jí)彈性冗余。重新啟動(dòng)或更換網(wǎng)絡(luò)節(jié)點(diǎn)不損失整個(gè)交換架構(gòu)可靠性,性能影響僅僅是總節(jié)點(diǎn)數(shù)之一,而不是傳統(tǒng)雙核架構(gòu)的50%。
·靈活的控制平面。分布式核心架構(gòu)可以使用基于標(biāo)準(zhǔn)以太網(wǎng)TRILL(多鏈路透明互聯(lián))協(xié)議或IP協(xié)議(OSPF和BGP)互聯(lián)。
戴爾Force10 Z9000分布式核心交換機(jī)
大多數(shù)核心交換機(jī)(尤其是大型機(jī)箱交換機(jī)系統(tǒng))不適合分布式核心設(shè)計(jì),因?yàn)樗鼈內(nèi)绻捎胠eaf和spine節(jié)點(diǎn)架構(gòu)配置以支持橫向擴(kuò)展,則體積龐大和費(fèi)用昂貴。而戴爾Force10 Z9000核心交換系統(tǒng)專門為leaf和spine網(wǎng)絡(luò)設(shè)計(jì)。Z9000是2U的800W機(jī)架交換機(jī),配置32個(gè)40GB以太網(wǎng)端口(128個(gè)10GB以太網(wǎng)端口),其成本僅僅是基于競(jìng)爭(zhēng)對(duì)手的機(jī)箱競(jìng)爭(zhēng)交換機(jī)的很小一部分,特別是在構(gòu)建超大型橫向擴(kuò)展架構(gòu)時(shí)。Z9000能夠最多支持64個(gè)spine針節(jié)點(diǎn)和128個(gè)leaf葉節(jié)點(diǎn),每臺(tái)Z9000實(shí)現(xiàn)每秒2.5TB的交換容量,能以極小的空間和低能耗創(chuàng)建每秒160TB的龐大網(wǎng)絡(luò)核心。網(wǎng)絡(luò)設(shè)計(jì)規(guī)模大小可參照如下計(jì)算:
·網(wǎng)絡(luò)設(shè)備節(jié)點(diǎn)數(shù): 3N/2
·可接入網(wǎng)絡(luò)端口數(shù): N2/2
N = 每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的交換機(jī)端口數(shù)
每臺(tái)Z9000交換機(jī)配置128個(gè)萬(wàn)兆以太網(wǎng)端口,N=128,代入計(jì)算得到最大網(wǎng)絡(luò)規(guī)模尺寸如下:
·網(wǎng)絡(luò)設(shè)備節(jié)點(diǎn)數(shù):192=3x128/2
·可接入網(wǎng)絡(luò)端口數(shù):8192=128x128/2
圖4 Z9000分布式核心設(shè)備圖
Z9000每臺(tái)約消耗800瓦電源,其耗電量是競(jìng)爭(zhēng)對(duì)手核心交換機(jī)的二十分之一,這項(xiàng)特性可以在使用大規(guī)模升級(jí)的核心網(wǎng)絡(luò)情況下,數(shù)據(jù)中心用戶也能在緊張的電費(fèi)預(yù)算下柔韌有余。Z9000只占2U高度,是競(jìng)爭(zhēng)對(duì)手的核心交換機(jī)高度的十分之一,使它能夠有效地利用機(jī)房空間大規(guī)模升級(jí)。
Z9000靈活使用基于標(biāo)準(zhǔn)的3層和2層控制平面技術(shù)。在3層,由OSPF和BGP控制,ECMP可整體分配在leaf和spine架構(gòu)上流量(目前可支持64條),BGP多路徑能夠用于在leaf和spine節(jié)點(diǎn)之間負(fù)載均衡,OSPF多域設(shè)計(jì)方式可以限制LSA廣播域和提升路由效率。如果Z9000僅需實(shí)現(xiàn)2層轉(zhuǎn)發(fā),TRILL控制平面可以實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)架構(gòu)的多路徑控制。總之,在3層或2層任何一種情況下,基于Z9000的分布式核心架構(gòu)都能提供全面的靈活性和規(guī)模控制。
在云計(jì)算時(shí)代數(shù)據(jù)中心規(guī)模將擴(kuò)展到成千上萬(wàn)臺(tái)服務(wù)器,然而,在大規(guī)模數(shù)據(jù)中心的集群計(jì)算環(huán)境中,節(jié)點(diǎn)之間的通信帶寬日益成為主要瓶頸,IT系統(tǒng)架構(gòu)師們正在尋求這些服務(wù)器網(wǎng)絡(luò)連接的更好途徑,以提高性能、減少成本和能耗并支持無(wú)縫橫向擴(kuò)展,分布式核心網(wǎng)絡(luò)為應(yīng)對(duì)這些挑戰(zhàn)提供新思路和新方法。
分布式核心網(wǎng)絡(luò)架構(gòu)經(jīng)濟(jì)
假設(shè)收斂比是3:1,Z9000架構(gòu)可擴(kuò)展到每秒160TB網(wǎng)絡(luò)架構(gòu),并支持多達(dá)2.4萬(wàn)臺(tái)萬(wàn)兆以太網(wǎng)服務(wù)器。然而基于Z9000架構(gòu)解決方案的競(jìng)爭(zhēng)優(yōu)勢(shì)最終在于分布式核心的經(jīng)濟(jì)因素,這個(gè)架構(gòu)僅以少量成本、耗電量和機(jī)架空間從根本上重新定義了數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)經(jīng)濟(jì)學(xué)。因?yàn)檫@個(gè)解決方案在經(jīng)濟(jì)上更加可行,使得分布式核心解決方案廣泛應(yīng)用于我們的客戶。
圖5 Z9000橫向擴(kuò)展架構(gòu)耗電量對(duì)比
圖6 Z9000橫向擴(kuò)展架構(gòu)占地面積對(duì)比
總而言之,分布式核心架構(gòu)提供更大的伸縮性、更高的帶寬和彈性,并且作為數(shù)據(jù)中心網(wǎng)絡(luò)的基礎(chǔ)處理大量的數(shù)據(jù)和使用大規(guī)模的計(jì)算集群。戴爾Force10秉承戴爾公司一貫開放的、性能高效和經(jīng)濟(jì)有效的高效企業(yè)級(jí)解決方案理念,研發(fā)的Z9000是唯一一款專門為分布式核心架構(gòu)制造的核心交換機(jī),對(duì)從小到大不同規(guī)模的橫向擴(kuò)展架構(gòu)解決方案進(jìn)行了成本優(yōu)化。
作者簡(jiǎn)介
李海平,郵件:[email protected],新浪微博”行云流水萬(wàn)泉河”,近20年IT行業(yè)市場(chǎng)和管理經(jīng)驗(yàn),清華大學(xué)畢業(yè),香港科技大學(xué)MBA,CCIE#4435 (R&S、SNA/IP),熱衷研究應(yīng)用經(jīng)濟(jì)學(xué)、商業(yè)管理和IT產(chǎn)業(yè)發(fā)展,在IT商業(yè)分析與業(yè)務(wù)整合、云計(jì)算與應(yīng)用架構(gòu)、虛擬化與基礎(chǔ)架構(gòu)業(yè)務(wù)拓展及管理等方面有多年經(jīng)驗(yàn)。在多個(gè)國(guó)際IT行業(yè)組織擔(dān)任會(huì)員包括DMTF、SNIA、PCI-SIG、SATA等,目前主管Dell大中華區(qū)下一代數(shù)據(jù)中心刀片服務(wù)器與網(wǎng)絡(luò)業(yè)務(wù),積極推動(dòng)中國(guó)客戶發(fā)展新興科技,應(yīng)用戴爾全球客戶最佳實(shí)踐。