一、運(yùn)營(yíng)級(jí)網(wǎng)絡(luò)面臨來自新業(yè)務(wù)的壓力
移動(dòng)互聯(lián)及新媒體
當(dāng)前終端用戶的多樣性和數(shù)量爆發(fā)式增長(zhǎng)已經(jīng)成為趨勢(shì)。在移動(dòng)互聯(lián)網(wǎng)時(shí)代,用戶使用的不再僅僅是固定終端,還包括各種各樣的移動(dòng)智能終端,預(yù)計(jì)在2012年,中國(guó)的移動(dòng)互聯(lián)網(wǎng)用戶數(shù)將首次超過傳統(tǒng)互聯(lián)網(wǎng)用戶數(shù)(易觀國(guó)際數(shù)據(jù))。移動(dòng)互聯(lián)網(wǎng)的發(fā)展改變了互聯(lián)網(wǎng)流量在時(shí)間軸上的分布,填補(bǔ)了用戶的片段時(shí)間,使得互聯(lián)網(wǎng)始終處于高流量狀態(tài);同時(shí),微博等新媒體的出現(xiàn)加快了信息的傳播速度,以類似病毒擴(kuò)散的模式在前所未有地消耗互聯(lián)網(wǎng)帶寬;此外,高清視頻業(yè)務(wù)的迅速發(fā)展也在大量消耗著互聯(lián)網(wǎng)的帶寬,用戶側(cè)的視頻流量帶寬可以高達(dá)到10Mbps,一個(gè)百萬級(jí)用戶的城域網(wǎng)視頻流量在高峰會(huì)達(dá)到數(shù)十Tbps。這些變化讓互聯(lián)網(wǎng)骨干路由器面臨著巨大的性能壓力,要求其向著具備更高密度的高速/超高速端口、更為強(qiáng)大的組播能力去發(fā)展。
云服務(wù)的新模式
圖1新的信息服務(wù)模式
如圖1示,隨著用戶數(shù)量和數(shù)據(jù)傳輸量的爆發(fā)式增長(zhǎng),計(jì)算服務(wù)也從獨(dú)立系統(tǒng)、獨(dú)立通道、獨(dú)立流量的傳統(tǒng)模式向統(tǒng)一資源管理的云計(jì)算模式轉(zhuǎn)變。當(dāng)前信息系統(tǒng)正處于大規(guī)模信息集中的階段,運(yùn)營(yíng)商開始大規(guī)模涉足三網(wǎng)融合、互聯(lián)網(wǎng)、ICT等綜合信息服務(wù)領(lǐng)域;領(lǐng)先的互聯(lián)網(wǎng)公司轉(zhuǎn)向SNS,提供涵蓋IM、電子商務(wù)、游戲、搜索、視頻、移動(dòng)互聯(lián)網(wǎng)的融合業(yè)務(wù);政府、企業(yè)信息系統(tǒng)已經(jīng)逐步實(shí)現(xiàn)數(shù)據(jù)集中,大量云正在形成。據(jù)最近TelecomTrendsInternational的研究報(bào)告表明,2015年前云計(jì)算服務(wù)帶來的營(yíng)收將達(dá)到455億美元。
隨著云計(jì)算業(yè)務(wù)的發(fā)展,云內(nèi)交換和云間交換的數(shù)據(jù)量越來越大。據(jù)統(tǒng)計(jì),在運(yùn)營(yíng)商的某些大型城域網(wǎng),云間交換的數(shù)據(jù)量已經(jīng)超過整體流量的40%,并且有進(jìn)一步擴(kuò)大的趨勢(shì),云間交換數(shù)據(jù)量的爆發(fā)式增長(zhǎng)給現(xiàn)有IP城域網(wǎng)和IP骨干網(wǎng)帶來巨大的壓力。為解決這一矛盾,運(yùn)營(yíng)商正在構(gòu)思一張新型的IP網(wǎng)絡(luò),即IDC骨干網(wǎng)。主要功能是把云間交換的流量從現(xiàn)有的IP城域網(wǎng)分離出來,為云間交換提供獨(dú)立的互聯(lián)網(wǎng)絡(luò),實(shí)現(xiàn)云間的高速交換。因此,新型的IDC骨干網(wǎng)將是以100G、40G和高密10G作為主要的互連端口,如圖3所示。
圖2新型的IDC骨干網(wǎng)
綜上所述,新一代核心路由器必須重點(diǎn)解決兩個(gè)問題:
1.大容量/高性能,支持100G、40G、集群等技術(shù),滿足互連網(wǎng)帶寬增長(zhǎng)的需求;
2.高性能組播,支持大規(guī)格組播組和線速組播復(fù)制能力,滿足IPTV視頻業(yè)務(wù)發(fā)展的需求。
本文重點(diǎn)描述核心路由器對(duì)上述關(guān)鍵問題的實(shí)現(xiàn)方法。
二、實(shí)現(xiàn)核心路由器大容量/高性能的兩個(gè)步驟
大容量/高性能是核心路由器最關(guān)鍵的技術(shù),實(shí)現(xiàn)方法包括兩個(gè)步驟:第一步是提高路由器單框的交換容量,滿足100G端口的線速交換能力;第二步是通過多框集群的方法提高單節(jié)點(diǎn)的端口密度。
1.單框交換容量
路由器單框交換容量主要以采用高性能交換架構(gòu)(CLOS架構(gòu))來實(shí)現(xiàn)T級(jí)交換容量和對(duì)100G端口線速的支持能力。
圖3CLOS多級(jí)交換矩陣
CLOS是多級(jí)交換,典型為三級(jí)交換架構(gòu),通過使用較小交換結(jié)構(gòu)作為基礎(chǔ)組件來構(gòu)建大型交換結(jié)構(gòu),從而簡(jiǎn)化大型交換結(jié)構(gòu)的構(gòu)建。如圖3所示,第1和第3級(jí)交換網(wǎng)片分布在業(yè)務(wù)板上,第2級(jí)交換網(wǎng)片分布在交換網(wǎng)板上,三級(jí)交換網(wǎng)構(gòu)成核心路由器的交換矩陣。該交換矩陣具有如下的特點(diǎn):
無阻塞、高可靠
在每一級(jí),每個(gè)交換單元的輸出都與下一級(jí)的所有單元的輸入相連,大幅度減少構(gòu)建無阻塞交換結(jié)構(gòu)所需要的交叉點(diǎn),從而減少故障點(diǎn),增強(qiáng)交換結(jié)構(gòu)的可靠性。如圖3所示,第1和第3級(jí)交換網(wǎng)片分別和第2級(jí)交換網(wǎng)片全連接,交叉點(diǎn)只有N個(gè)(其中N是交換網(wǎng)板數(shù)量)。
智能調(diào)度模式,交換路徑負(fù)載分擔(dān),實(shí)現(xiàn)了交換系統(tǒng)嚴(yán)格意義上的無阻塞。如圖3所示,第1和第3級(jí)到第2級(jí)的流量按照1/N負(fù)荷分擔(dān)。
到指定目的地,第2級(jí)交換單元都只存在1條路由。交換單元的交換路徑完全獨(dú)立,不會(huì)彼此干擾,不需要復(fù)雜的集中控制器來協(xié)調(diào)各交換單元的交換,進(jìn)一步增強(qiáng)可靠性和可擴(kuò)展性。
支持遞歸擴(kuò)展,CLOS網(wǎng)絡(luò)中間級(jí)的交換也可以是一個(gè)完整的三級(jí)CLOS網(wǎng)絡(luò)。這可支持構(gòu)建具有五級(jí)、七級(jí)或九級(jí)的巨大交換結(jié)構(gòu),在極大數(shù)量的輸入和輸出之間建立嚴(yán)格的無阻塞連接。由于CLOS網(wǎng)絡(luò)的遞歸特性,理論上它具有無限的可擴(kuò)展性。
到指定目的地,在第1級(jí)交換單元存在多條路由,當(dāng)其中一塊網(wǎng)板發(fā)生故障時(shí),自動(dòng)隔離故障網(wǎng)片,通過冗余路徑繞過第2級(jí)交換單元的故障,實(shí)現(xiàn)強(qiáng)大的故障抵御能力。如圖4所示,當(dāng)其中一塊網(wǎng)片發(fā)生故障,交換矩陣能夠?qū)崿F(xiàn)動(dòng)態(tài)路由,自動(dòng)隔離故障網(wǎng)片,倒換過程業(yè)務(wù),由剩余網(wǎng)片分擔(dān)轉(zhuǎn)發(fā)。
圖4交換網(wǎng)冗余保護(hù)
大容量
采用CLOS多級(jí)交換網(wǎng)架構(gòu)的核心路由器,業(yè)務(wù)板卡和每塊交換網(wǎng)板都物理相連,通過多網(wǎng)板負(fù)荷分擔(dān)擴(kuò)展系統(tǒng)的交換能力,交換容量達(dá)到T級(jí)。
設(shè)計(jì)良好的核心路由器,其單框交換容量能夠達(dá)到或超過部分傳統(tǒng)路由器的集群能力,以H3C公司的100G核心路由器CR16000系列為例,其交換容量足以支持每槽位2個(gè)100G端口,性能超過部分傳統(tǒng)核心路由器的集群能力,其交換容量和100G接口支持能力如表1所示。
表1、交換容量
2.多框集群
對(duì)于運(yùn)營(yíng)商IP骨干網(wǎng)的超級(jí)節(jié)點(diǎn),如大型城域網(wǎng)核心路由器、IDC骨干路由器,面臨兩個(gè)重大的技術(shù)問題:第一,單框路由器容量逐步發(fā)展到極限,端口密度無法滿足骨干節(jié)點(diǎn)需求;第二,多臺(tái)路由器通過路由互聯(lián)方式組成的超級(jí)核心節(jié)點(diǎn)使得網(wǎng)絡(luò)結(jié)構(gòu)越趨復(fù)雜,運(yùn)維管理難度加大。如圖5所示:
圖5核心節(jié)點(diǎn)路由互聯(lián)
這種通過多臺(tái)核心路由器來共同分擔(dān)流量的方式,在一定程度上緩解了流量增長(zhǎng)的壓力,但也帶來了新的問題:
額外消耗多個(gè)高速接口,增加了互連鏈路開銷;
每增加一臺(tái)核心路由器,IP地址、路由協(xié)議鄰居數(shù)量、路由表?xiàng)l目及路由收斂時(shí)間等相應(yīng)的增加問題隨之而來;
網(wǎng)絡(luò)變得更復(fù)雜,維護(hù)壓力越來越大;
多臺(tái)設(shè)備之間流量如何均衡,一直都是業(yè)界的難題。
路由器集群技術(shù)能夠很好地解決上述問題。路由器集群(Multi-Chassis)就是將多臺(tái)路由器互聯(lián)起來形成一套邏輯上一體的路由器系統(tǒng)。集群是一種最有效的解決擴(kuò)展性問題的技術(shù),它可在方便維護(hù)、不增加網(wǎng)絡(luò)復(fù)雜度的前提下,用更低的網(wǎng)絡(luò)的建設(shè)成本和維護(hù)成本來滿足業(yè)務(wù)高速增長(zhǎng)、網(wǎng)絡(luò)性能及容量提升的需求(如圖6所示)。
圖6集群技術(shù)
集群技術(shù)通過集中化、一體化的控制管理,使集群系統(tǒng)各臺(tái)路由器單機(jī)之間能夠很好地協(xié)同工作,擴(kuò)展路由器的容量,突破單機(jī)在開發(fā)技術(shù)上的限制。在成本方面,由于集群系統(tǒng)中各臺(tái)路由器通過高速光背板互連,節(jié)省了額外的內(nèi)部互聯(lián)端口,且不再需要昂貴的路由器接口卡實(shí)現(xiàn)復(fù)雜的QoS、路由轉(zhuǎn)發(fā)等特性,使機(jī)箱之間的互連成本遠(yuǎn)低于普通端口互連方式,大大減少了投資;同時(shí),還克服了采用普通端口互連方式帶來的帶寬瓶頸問題。更為重要的是,由于集群路由器具有統(tǒng)一的管理和路由控制引擎,對(duì)外僅體現(xiàn)為一臺(tái)邏輯路由器,使得網(wǎng)絡(luò)拓?fù)浜吐酚刹呗宰兊煤?jiǎn)單和清晰,維護(hù)也更加方便快捷。
集群路由器已經(jīng)大量應(yīng)用在運(yùn)營(yíng)商的核心骨干網(wǎng),甚至是超大型城域網(wǎng)的出口位置。但即便是采用集群,在某些大流量的骨干網(wǎng)節(jié)點(diǎn)和城域網(wǎng)出口,網(wǎng)絡(luò)流量的增長(zhǎng)已經(jīng)遠(yuǎn)遠(yuǎn)超過了原有的設(shè)計(jì),現(xiàn)有核心路由器的端口數(shù)和整體轉(zhuǎn)發(fā)能力已現(xiàn)捉衿見肘之勢(shì)。考慮到技術(shù)成熟度和設(shè)備穩(wěn)定性,現(xiàn)網(wǎng)最常見的核心路由器集群采用4臺(tái)集群,單臺(tái)核心路由器的容量約在1~2T,集群后的整體性能至多達(dá)到10T。未來5年互聯(lián)網(wǎng)流量與現(xiàn)在相比將有4倍的增長(zhǎng),因此為了滿足至少未來5年的互聯(lián)網(wǎng)容量增長(zhǎng),新一代100G平臺(tái)核心路由器整體硬件容量能力應(yīng)該瞄準(zhǔn)單框10T,集群后整體性能40T的目標(biāo)設(shè)計(jì)。
針對(duì)網(wǎng)絡(luò)建設(shè)來講,通過路由器集群,將核心設(shè)備容量升級(jí)到原來的2倍、4倍、6倍、8倍或以上都能采取平滑擴(kuò)充的方式,而且不會(huì)增加路由的跳數(shù)和復(fù)雜度。因此,集群技術(shù)完美地實(shí)現(xiàn)了核心路由器容量從Tbit/s級(jí)到數(shù)十Tbit/s級(jí)的擴(kuò)展,很好地解決了核心層大容量的問題。
三、多級(jí)組播
視頻業(yè)務(wù)的迅速發(fā)展對(duì)路由器的組播能力提出了更高的要求,包括組播規(guī)格和組播復(fù)制能力,其中組播復(fù)制能力是關(guān)鍵技術(shù)。為了提高組播復(fù)制能力,同時(shí)減少組播業(yè)務(wù)在路由器內(nèi)部的資源消耗,我們提出了“交換網(wǎng)組播”和“三級(jí)組播復(fù)制”的技術(shù)實(shí)現(xiàn)方法。
1.交換網(wǎng)組播
圖7組播表項(xiàng)
傳統(tǒng)核心路由器在組播功能上最重大的缺陷之一就是交換網(wǎng)不支持組播,組播報(bào)文在單板和交換網(wǎng)之間是廣播轉(zhuǎn)發(fā),導(dǎo)致的嚴(yán)重后果是組播流量越大,路由器內(nèi)部的廣播流量就越大,交換網(wǎng)帶寬資源浪費(fèi)就越嚴(yán)重。
針對(duì)上述問題,在交換網(wǎng)上增加組播表項(xiàng)存儲(chǔ)空間并同步學(xué)習(xí)組播表項(xiàng)。如圖7所示,交換網(wǎng)板同步學(xué)習(xí)組播表項(xiàng),按需復(fù)制,可以最大限度的節(jié)省交換網(wǎng)帶寬資源。但是,交換網(wǎng)上的組播表項(xiàng)和業(yè)務(wù)板上的組播表項(xiàng)有區(qū)別。業(yè)務(wù)板上的組播表項(xiàng)為:源IP+組播IP+出接口列表,交換網(wǎng)板上的組播表項(xiàng)為:源IP+組播IP+出接口板列表,即:交換網(wǎng)板上的組播表項(xiàng)的下一跳為出接口板列表而不是出接口列表,交換網(wǎng)板根據(jù)出接口板列表來復(fù)制和轉(zhuǎn)發(fā)報(bào)文到目標(biāo)接口板,組播轉(zhuǎn)發(fā)不再造成帶寬浪費(fèi)。
2.三級(jí)組播復(fù)制
為提升組播轉(zhuǎn)發(fā)效率,在芯片級(jí)和交換網(wǎng)級(jí)采用了三級(jí)組播復(fù)制的設(shè)計(jì),第一級(jí)組播復(fù)制在入接口板內(nèi)完成,第二級(jí)組播復(fù)制在交換網(wǎng)完成,第三級(jí)組播復(fù)制在出接口板完成,不浪費(fèi)任何帶寬。
圖8一級(jí)組播復(fù)制
如圖8所示,一級(jí)組播復(fù)制發(fā)生在組播出接口和入接口在同一個(gè)PP(PacketProcessor)中,當(dāng)PP收到組播流的時(shí)候,查詢TCAM中的組播轉(zhuǎn)發(fā)表(源IP+組播IP+出接口列表),發(fā)現(xiàn)其中有一個(gè)或多個(gè)組播出接口在本PP中,PP為每一個(gè)在本PP的組播出接口復(fù)制一份報(bào)文,同時(shí),如果存在出接口不在本PP的情況,則往交換網(wǎng)發(fā)送一份組播報(bào)文。
圖9二級(jí)組播復(fù)制
如圖9所示,二級(jí)組播復(fù)制發(fā)生在交換網(wǎng)板上,當(dāng)交換網(wǎng)收到組播流的時(shí)候,查詢MC組播轉(zhuǎn)發(fā)表(源IP+組播IP+出接口板列表),根據(jù)“出接口板列表”向下一跳出接口板復(fù)制一份組播報(bào)文。
圖10三級(jí)組播復(fù)制
如圖10所示,三級(jí)組播復(fù)制發(fā)生在出接口板中,當(dāng)PP收到組播流的時(shí)候,查詢TCAM中的組播轉(zhuǎn)發(fā)表(源IP+組播IP+出接口列表),發(fā)現(xiàn)其中有一個(gè)或多個(gè)組播出接口在本PP中,PP為每一個(gè)在本PP的組播出接口復(fù)制一份報(bào)文。
四、結(jié)束語
網(wǎng)絡(luò)流量爆發(fā)式增長(zhǎng)帶來的業(yè)務(wù)壓力,要求作為網(wǎng)絡(luò)核心動(dòng)力的路由器應(yīng)通過大容量/高性能的關(guān)鍵技術(shù)來應(yīng)對(duì)。新一代100G平臺(tái)核心路由器通過單框交換容量的提升超過傳統(tǒng)路由器集群能力是一大進(jìn)步,路由器集群技術(shù)也將成為解決路由器容量瓶頸的必然選擇。