數(shù)據(jù)中心交換機是網(wǎng)絡(luò)的重要組成部分,網(wǎng)絡(luò)從接入到核心基本均采用的是交換機。現(xiàn)在很多新技術(shù)和應(yīng)用都要依賴網(wǎng)絡(luò),對交換機也提出了更高的要求,那些傳統(tǒng)的二三層轉(zhuǎn)發(fā)交換機已無法滿足業(yè)務(wù)需求,交換機必須做出改變。在2017年第四季度,全球交換機的市場達到了69億美元,預(yù)計到2019年,全球交換機市場能超過250億美元,這依然是一個不能讓人忽視的市場,所以很多交換機大廠都在挖空心思設(shè)計未來的網(wǎng)絡(luò)設(shè)備,寄希望在未來的市場競爭中脫穎而出。要說現(xiàn)在最火的技術(shù),當(dāng)屬人工智能AI技術(shù),通過AI技術(shù)來模仿人的行為,從而代替人自動完成人的工作。AI技術(shù)已經(jīng)滲透到很多行業(yè)中,也包括數(shù)據(jù)中心。作為數(shù)據(jù)中心組成中最為重要的一份子,交換機自然不能缺席。將AI技術(shù)引入網(wǎng)絡(luò),在交換機上實踐是一個很棒的設(shè)計,而且已經(jīng)有人已經(jīng)開做著手做了。那么,AI究竟能給交換機帶來什么呢?本文將展開說明。
1.流量分析
數(shù)據(jù)中心里海量的數(shù)據(jù)是其寶貴的財富,利用大數(shù)據(jù)對數(shù)據(jù)流量進行分析,往往能得到一些非常有價值的分析結(jié)果。交換機作為數(shù)據(jù)流量轉(zhuǎn)發(fā)的載體,能夠接觸到最全面的數(shù)據(jù),所以針對這些數(shù)據(jù)進行分析,非常有意義。其實,早已經(jīng)有不少的分析設(shè)備和軟件可以做這個事情,比如:流量清洗設(shè)備,防火墻,入侵檢測,上網(wǎng)流量行為分析等等,這些往往是在交換機上做鏡像或者采樣技術(shù)將流量復(fù)制一份到分析設(shè)備,有分析設(shè)備完成分析,輸出分析結(jié)果。這樣一方面增加采購分析設(shè)備成本,另一方面是分析比較初級,更多是側(cè)重于安全過濾與防護,若交換機自己就具備這樣的功能豈不更好?交換機的CPU本身是比較弱的,但也可以單獨增加一個CPU,或者干脆將一個服務(wù)器裝入交換機,讓其完成流量分析工作。這樣擁有了強大的計算能力就可以部署AI技術(shù),通過AI技術(shù)可以很快掌握交換機上的流量轉(zhuǎn)發(fā)情況,還可以輸出很多流量分析結(jié)果供管理人員參考。同時AI技術(shù)還可以將設(shè)備的各種運行參數(shù)監(jiān)控起來,綜合評判分析當(dāng)前交換機的工作狀態(tài),若處于非健康狀態(tài)及時給出告警和調(diào)整建議。
2.算法優(yōu)化
交換機為了提升轉(zhuǎn)發(fā)效率,很多算法都是比較初級的,比如路由最長匹配,聚合HASH算法,算法本身都不復(fù)雜,可以提升硬件轉(zhuǎn)發(fā)數(shù)據(jù)的效率,本質(zhì)上是硬件處理不夠靈活。有了AI技術(shù),就可以根據(jù)交換機上的數(shù)據(jù)轉(zhuǎn)發(fā)情況,自學(xué)習(xí)設(shè)計算法,對于效率不高的算法進行優(yōu)化,然后將算法固化到硬件中去。現(xiàn)在的SDN就是這樣的理念,通過軟件來學(xué)習(xí)網(wǎng)絡(luò)互聯(lián)狀態(tài),然后學(xué)習(xí)完成后,向各個網(wǎng)絡(luò)設(shè)備下發(fā)轉(zhuǎn)發(fā)流表,控制器就是整個網(wǎng)絡(luò)的大腦,這個大腦擁有AI技術(shù),具備學(xué)習(xí)能力,通過對整個網(wǎng)絡(luò)進行學(xué)習(xí),逐漸實現(xiàn)自動化管理整個網(wǎng)絡(luò)。通過每個交換機都部署上AI技術(shù),最終整個網(wǎng)絡(luò)都是AI的,完全走向自動化運行的網(wǎng)絡(luò)。
3.閾值設(shè)計
交換機里有大量的定時器和閾值設(shè)計,這些閾值很多都是經(jīng)驗性的,并無標(biāo)準(zhǔn)可言,很多時候并不適用于所有網(wǎng)絡(luò),所以我們會看到交換機上有上千條的命令,通過設(shè)置不同命令來滿足不同網(wǎng)絡(luò)環(huán)境的需求。比如OSPF的Hello報文超時時間我們可以配置成10*3秒,可以配置成1*3秒,ARP老化時間可以配置成20分鐘,也可以配成1分鐘,在不同的網(wǎng)絡(luò)環(huán)境中可以采用不同的閾值參數(shù),這需要在設(shè)備上做大量的配置工作,每一次網(wǎng)絡(luò)變更都需要在設(shè)備上輸入大量的配置命令,有了AI交換機則完全不同了。AI交換機不需要做這些配置,先會設(shè)置一個默認(rèn)的初始值,然后會根據(jù)網(wǎng)絡(luò)情況有時會調(diào)整這個閾值參數(shù),這個閾值參數(shù)也并不是一成不變的,隨著網(wǎng)絡(luò)的波動也在不斷變化著,這樣極大簡化了設(shè)備的配置量。AI交換機幾乎不需要人參與做配置,而是根據(jù)網(wǎng)絡(luò)互連情況自動下發(fā)最適合的閾值,大大提升了網(wǎng)絡(luò)運維的效率,將繁瑣的判斷過程交給AI去做,當(dāng)然AI會根據(jù)大量的歷史經(jīng)驗數(shù)據(jù)計算得來,讓閾值參數(shù)最符合網(wǎng)絡(luò)當(dāng)前的情況。在交換機內(nèi)部實現(xiàn)上也有很多地方采用閾值變量進行判斷,這些地方其實都可以通過AI技術(shù)實現(xiàn),將AI實現(xiàn)的源代碼嵌入到交換機程序中,對涉及閾值參數(shù)的地方進行AI計算,得到更加合理的閾值參數(shù)。
4.故障自愈
交換機不僅要完成數(shù)據(jù)轉(zhuǎn)發(fā),還要在發(fā)生故障的時候能夠自愈,如果能夠做到這點,數(shù)據(jù)中心網(wǎng)絡(luò)自動化的運維,就可以成真,要完全做到這個是很難的,因為很多時候經(jīng)驗豐富的工程師都很難短時間找到問題原因,這樣故障恢復(fù)的手段都難以確定。AI技術(shù)的準(zhǔn)確性是建立在海量數(shù)據(jù)樣本學(xué)習(xí)的基礎(chǔ)上的,每個數(shù)據(jù)中心不可能將所有的故障類型都遇上一次,這就需要建立公共的大型數(shù)據(jù)中心網(wǎng)絡(luò)故障數(shù)據(jù)庫,這里涵蓋了很多數(shù)據(jù)中心網(wǎng)絡(luò)故障的原因分析和恢復(fù)手段,AI技術(shù)基于這些數(shù)據(jù)才能學(xué)習(xí)輸出故障自愈方案,而當(dāng)前最為欠缺的就是這樣的數(shù)據(jù)庫,有些技術(shù)涉密也無法公布出來,這使得通過AI技術(shù)去自愈故障的準(zhǔn)確性就會打上個問號。我們可以根據(jù)現(xiàn)有經(jīng)驗,向交換機輸出數(shù)據(jù),供其學(xué)習(xí),在有限范圍實現(xiàn)自愈,不能準(zhǔn)確判斷的領(lǐng)域給出告警,讓人參與進來,由人和交換機共同完成故障恢復(fù)。
人工智能在交換機技術(shù)中已經(jīng)逐漸開始展露手腳,從監(jiān)控、轉(zhuǎn)發(fā)、控制到流量分析都可以引入人工智能,相信不久的將來就能看到真正的人工智能交換機面世,屬于人工智能的網(wǎng)絡(luò)時代已經(jīng)來臨!