企業上云的網絡挑戰
企業上云過程中,基礎設施在不斷云化,隨著容器技術的快速發展,上云后的應用架構逐漸微服務化。云服務高頻動態變化的特性滿足了業務快速變化的需求,但更多的業務上云使得東西向網絡流量激增,基礎設施的云化進一步模糊了網絡的邊界,種種因素疊加在一起使得上云后業務的安全和運維難度陡增。網絡的監控診斷伴著網絡的發展始終存在,網絡的邊界隨著基礎設施的云化尤其是網絡虛擬化層次的延伸而不斷擴大。相應地,網絡監控診斷的觸手也需要隨之增加。但在混合云環境中,網絡監控診斷遇到了新的挑戰。企業現有的監控診斷方案無法覆蓋日益增加的東西向流量,由此形成的網絡“黑盒”已成為企業上云的一大障礙。
混合云網絡的八卦圖
古人用八卦圖表示一切自然現象的動靜狀態,從事生產活動時參考卦象以趨利避害。與網絡而言,最重要的表象無非是網元的配置信息和運行狀態。要解決混合云網絡的監控診斷難題,需要對網元的配置信息和運行狀態進行望聞問切。一幅刻畫云網絡的“八卦圖”呼之欲出。網絡的點、線、面
在網絡監控診斷的場景下,如果我們將具體數據包看做是“點”,完整的業務訪問路徑(一條流)則是由多個“點”連成的“線”。流信息包含了關鍵的網絡元數據,但在多地數據中心、資源池化,并且涉及公有云資源、專線鏈路的IT環境中,市場上的方案缺少全局的網絡狀態視角,即一張關聯IaaS資源、PaaS資源、服務應用的知識圖譜——混合云網絡的全景圖。
云杉網絡的DeepFlow提供了針對云網絡的點、線、面操作邏輯,為混合云的監控診斷提供了全面的信息保障。知識圖譜(網絡全景圖)包含網絡所涉及的對象實體映射關系,顯示結構拓撲與現網流量的一系列不同視角的視圖展示,應用可視化技術和搜索技術描述資源實體全面、豐富的運行信息,為云中業務的監控診斷提供按圖索驥的指導。
云網絡八卦圖的繪制
要繪制一幅混合云網絡的全(八)景(卦)圖,首先要獲取的是生產網絡的拓撲,其次是全網的流量信息,最后是根據流量與網元的映射關系,梳理出與業務有關的知識圖譜并識別出異常或惡意的流量,為企業上云后的監控診斷提供可靠的依據。云杉網絡DeepFlow監控診斷方案由DeepFlow的采集器、控制器以及數據節點組成,滿足KVM、ESXi、容器、公有云等各類資源池的網絡監控診斷需求;并支持IPv4、IPv6協議環境。獲取混合云環境的網絡流、數據包并非易事,需要兼顧性能和侵入性,方案的設計要充分考慮企業已有的生產環境。
DeepFlow控制器首先通過與生產環境尤其是云平臺的對接,自動學習云中的資源和網絡拓撲信息。通過對接關鍵物理設備,DeepFlow完成全(八)景(卦)圖繪制的第一步。
考慮到網絡監控框架的可擴展性,流量采集與后端監控診斷工具必須解耦,在采集側,各類型號的DeepFlow采集器為全網流量采集方案提供基礎信息的捕獲能力,支持物理網絡、KVM、ESXi、容器、公有云等資源池網絡環境。對于多數據中心、多云異構的混合云基礎設施,DeepFlow控制器以集群方式實現對不同平臺下眾多采集器的管理。控制器能秒級啟停海量采集器,采集器通過接收控制器的指令,在本地對流量做預處理。至此,DeepFlow完成全(八)景(卦)圖繪制的第二步。
控制器作為整個系統的中樞大腦,結合采集到的流量和已經對接的生產環境網絡拓撲,借助機器學習和大數據等技術,自動對全網流量進行梳理,結合數據類型、監控指標、資源屬性、展示方式等多個維度,生成全局業務真實的網絡流量知識圖譜,亦即DeepFlow全(八)景(卦)圖繪制的第三步。
云網絡八卦圖的展示
不同角色的使用者對全景圖的展示各有偏好,全面覆蓋這些需求并提供統一的呈現,是滿足各方對網絡卦象解讀的重要前提。企業通過DeepFlow平臺已經掌握了混合云環境中的網絡數據。核心的監控指標是用以描述網絡狀態、性能的各類指標,主要包括吞吐量、時延、異常、傳輸狀態等;展示方式根據使用場景主要有分布、關聯、對比及回溯等。網絡流量數據又是典型的時間序列數據,同時具備相應的網絡特性。因此DeepFlow提供了分布式的網絡時序數據庫服務,在滿足快速寫入、數據持久化的同時,不斷優化多維度的聚合查詢能力。平臺不同角色用戶可以在核心視圖的基礎上,定制自己更關心的監控面板并設置告警策略。
混合云網絡監控診斷方案的部署
整體方案包括DeepFlow采集器、DeepFlow控制器、DeepFlow數據節點三部分。對于整體規劃的方案,建議對整體混合云規劃獨立的網絡監控平面,對于混合云的監管流量統一、獨立地進行管理。在完成整體方案規劃后,可分區域、分資源池、按階段投入建設,最終使企業具備對混合云基礎設施全網絡監控診斷能力,保障應用業務穩定運行。由于大部分企業已經具備對傳統物理網絡的監控能力,通常重點選擇KVM、容器資源池網絡為第一階段建設,重點解決資源池內網絡東西向流量“黑盒”不可見的問題,實現資源池網絡可視化,提高運維排障效率,保證網絡服務等級協議。
第二階段納入更多資源池,與新建擴容的資源池同步部署,接入物理網絡中分光鏡像流量,實現對整體數據中心網絡監控。
第三階段面向混合云中的公有云資源,對運行其上的網絡進行監控,部署采集器,具備對Workload或其上容器流量采集能力,完成對混合云IT環境網絡整體監控管理。
對于已經運行的混合云環境,可以在不影響生產環境運行的情況下部署實施,網絡規劃上將DeepFlow平臺所涉及的管理、監控分發平面復用在已有的網絡平面中,通常可以復用已經存在的網絡管理平面。