多個機構(gòu)的調(diào)研結(jié)果顯示,企業(yè)在上云過程中會不同程度地采用多種類型的資源池——混合云既具備公有云彈性伸縮的優(yōu)點,又可滿足用戶對于不同類型業(yè)務(wù)和數(shù)據(jù)的運營需求,越來越多的企業(yè)IT架構(gòu)正在逐步向多地、多點的混合云系統(tǒng)轉(zhuǎn)變。
一、多地、多點、異構(gòu)資源池網(wǎng)絡(luò)監(jiān)控難度陡增
隨著云計算新技術(shù)的不斷引入,傳統(tǒng)的網(wǎng)絡(luò)運維、監(jiān)控方案越來越難以持續(xù),云時代的網(wǎng)絡(luò)監(jiān)控診斷遇到了新的挑戰(zhàn)。許多企業(yè)IT運營管理人員紛紛表示,現(xiàn)有的監(jiān)控診斷方案難以覆蓋日益增加的東西向流量;云化后的虛擬資源時刻發(fā)生變化、虛擬網(wǎng)絡(luò)的層級不斷疊加和轉(zhuǎn)換、不同業(yè)務(wù)的網(wǎng)絡(luò)服務(wù)拆分和交織在一起,網(wǎng)絡(luò)的日常運維工作由此變得非常復(fù)雜;而當(dāng)在業(yè)務(wù)出現(xiàn)問題時,由于缺少完整的證據(jù)鏈幫助企業(yè)快速定位和排障,導(dǎo)致部門間經(jīng)常互相推諉。網(wǎng)絡(luò)“黑盒”成為企業(yè)上云的一大障礙已經(jīng)成為業(yè)界共識,造成這個問題的原因包括以下幾點:
1. 流量管理有短板:傳統(tǒng)的分光/鏡像/采樣等技術(shù)只能覆蓋到物理網(wǎng)絡(luò),對越來越占據(jù)主導(dǎo)地位的虛擬網(wǎng)絡(luò)流量缺乏精準(zhǔn)和高效的采集手段,而后端現(xiàn)有的大部分分析工具首先缺乏必須的流量數(shù)據(jù),并且也無法處理TB級別的流量數(shù)據(jù)。
2. 網(wǎng)絡(luò)視圖不清晰:云數(shù)據(jù)中心的特點是各種業(yè)務(wù)由同一套系統(tǒng)承載,網(wǎng)絡(luò)資源是動態(tài)變化的,因此很難像傳統(tǒng)網(wǎng)絡(luò)那樣用一張清晰的圖來表示云網(wǎng)絡(luò),出現(xiàn)業(yè)務(wù)故障時“虛擬網(wǎng)元”往往成為了故障盲點,對于網(wǎng)絡(luò)中的服務(wù)互訪、關(guān)聯(lián)關(guān)系、訪問路徑還缺少有效的監(jiān)控手段,定位故障點成了新挑戰(zhàn)。
3. 監(jiān)控不隨云擴展:企業(yè)采用混合云架構(gòu)后,網(wǎng)絡(luò)結(jié)構(gòu)靈活多變,在多租戶、大量業(yè)務(wù)、海量數(shù)據(jù)的背景下,需要建立包含物理、虛擬化、容器網(wǎng)絡(luò)的統(tǒng)一監(jiān)控平臺,并為其他部門提供網(wǎng)絡(luò)分流、數(shù)據(jù)服務(wù)。
二、用DeepFlow構(gòu)建業(yè)務(wù)全鏈路流量知識圖譜
許多行業(yè)有明確的等保要求,例如必須有能力對虛擬網(wǎng)絡(luò)的拓?fù)浜土髁窟M行采集和展現(xiàn),采集方式也必須確保安全可靠。企業(yè)想徹底解決虛擬網(wǎng)絡(luò)“黑盒”問題,則需要獲取完整的網(wǎng)絡(luò)流量。下面以DeepFlow全景圖功能為例,介紹混合云環(huán)境下的網(wǎng)絡(luò)流量采集及全鏈路監(jiān)控。
全景圖是DeepFlow重要功能之一,v5.6版本提供十多個維度(包括IP、VPC、子網(wǎng)、區(qū)域、可用區(qū)、宿主機、虛擬機、容器節(jié)點、容器POD、業(yè)務(wù)、資源組等)的資源流量搜索和知識圖譜展現(xiàn),以及云網(wǎng)全景視圖下的監(jiān)控診斷解決方案。幫助用戶將網(wǎng)絡(luò)信息、資源信息、服務(wù)信息與業(yè)務(wù)信息有機關(guān)聯(lián),統(tǒng)一采集并分發(fā)任意工作負(fù)載(容器/虛擬機)之間的流量,實現(xiàn)對業(yè)務(wù)網(wǎng)絡(luò)的全面性能監(jiān)控。流量搜索從十余個維度的資源視角展示網(wǎng)絡(luò)性能監(jiān)控數(shù)據(jù)。全景圖展示的視角(頁面)包括:
流統(tǒng)計:以IP五元組聚合流,以流屬性為基礎(chǔ)統(tǒng)計吞吐、負(fù)載、時延、性能、異常及流量屬性數(shù)據(jù),支持以趨勢、排名、分布、拓?fù)涞姆绞竭M行可視化。
包統(tǒng)計:以IP二元組聚合,對包的播送類型、TCP標(biāo)志位、TTL、包長區(qū)間等屬性進行吞吐量統(tǒng)計,支持以趨勢、排名、分布、拓?fù)涞姆绞竭M行可視化。
廣域網(wǎng):從地理位置的視角展示資源與Internet之間的流量分布,支持以中國省份維度進行分組統(tǒng)計,支持的指標(biāo)量與流統(tǒng)計相同,支持以趨勢、排名、分布的方式進行可視化。
通過點擊拓?fù)渲械墓?jié)點、路徑,以及分布圖中的分組,用戶可在上述頁面之間進行切換,從不同的視角對同樣的數(shù)據(jù)進行展現(xiàn)。另外,頁面還可進一步跳轉(zhuǎn)到流量曲線二級頁面,以折線圖的視角,展現(xiàn)現(xiàn)拓?fù)渲械墓?jié)點、路徑或分布圖中分組的統(tǒng)計數(shù)據(jù)在不同時間的結(jié)果,并與虛擬機、容器POD的啟停、創(chuàng)建(同步)、刪除、遷移、IP變更事件進行關(guān)聯(lián)展示。進一步的,可以跳轉(zhuǎn)到流日志三級頁面,查看對應(yīng)的原始流日志詳細(xì)信息。
DeepFlow全景圖功能下目前有流量搜索及網(wǎng)絡(luò)拓?fù)鋬蓚€子功能,流量搜索聚焦于從不同的維度對虛擬網(wǎng)絡(luò)中的流量指標(biāo)數(shù)據(jù)(500多個監(jiān)控指標(biāo))進行靈活檢索,形成豐富多樣的子視圖(拓?fù)漕?、比較類、分布類、趨勢類等),對流量數(shù)據(jù)進行可視化展現(xiàn)。且所有可視化圖表均可加入自定義視圖中進行進一步的組合、設(shè)置告警生成策略、設(shè)置報表生成策略。
網(wǎng)絡(luò)拓?fù)涔δ芫劢褂趶倪壿?、虛擬、物理的視角展現(xiàn)網(wǎng)絡(luò)的配置信息和狀態(tài)指標(biāo)數(shù)據(jù)。完整描述各虛擬資源及虛擬網(wǎng)元之間的訪問關(guān)系以及流量狀態(tài),幫助管理者全面掌握虛擬網(wǎng)絡(luò)整體情況,有效應(yīng)對虛擬網(wǎng)絡(luò)內(nèi)部組件關(guān)系復(fù)雜、虛擬機變動頻繁等現(xiàn)象。
三、全景視圖下的云網(wǎng)全鏈路監(jiān)控診斷
采集數(shù)據(jù)、可視化呈現(xiàn)只是精細(xì)化管理的第一步,接下來還要將網(wǎng)絡(luò)信息、資源信息、服務(wù)信息、及業(yè)務(wù)信息,關(guān)聯(lián)對應(yīng)起來,真正用于發(fā)現(xiàn)問題、解決問題。例如,用戶通過DeepFlow全景圖可以確定突發(fā)的網(wǎng)絡(luò)故障問題在哪一側(cè),以及業(yè)務(wù)網(wǎng)絡(luò)端到端逐跳性能問題診斷等。
通過精細(xì)搜索,過濾指定網(wǎng)流:源、目的、協(xié)議、服務(wù)端口;通過端到端指標(biāo)量對比,定位問題在客戶端/服務(wù)端;結(jié)合資源知識圖譜,定位流量的資源信息。
通過精細(xì)搜索,過濾指定網(wǎng)流:源、目的、協(xié)議、服務(wù)端口;通過物理鏈路逐跳查看,展示網(wǎng)絡(luò)性能指標(biāo)的逐跳變化,定位丟包和時延位置;通過廣域網(wǎng)追蹤,過濾網(wǎng)流,定位問題地域。
四、總結(jié)
DeepFlow全景圖幫助管理者將網(wǎng)元狀態(tài)、網(wǎng)絡(luò)流量與資源(業(yè)務(wù))有機關(guān)聯(lián),使云中業(yè)務(wù)網(wǎng)絡(luò)不再是運維“黑洞”。通過全網(wǎng)流量采集,時序數(shù)據(jù)庫的分布式存儲,再繪制包含多個維度的網(wǎng)絡(luò)知識圖譜,最終通過對關(guān)鍵指標(biāo)量的監(jiān)控,實現(xiàn)對業(yè)務(wù)網(wǎng)絡(luò)全鏈路的監(jiān)控和性能診斷。