數據中心NFV是通過使用x86等通用性硬件以及虛擬化技術,來承載很多功能的軟件處理,使網絡設備功能不再依賴于專用硬件,降低網絡設備成本。NFV是網絡運營商主推的網絡虛擬化技術,這有利于大幅降低網絡運營商的設備采購成本。不過,運營商需要的是高可靠性的網絡,對網絡可靠性要求最高,但看看我們應用了虛擬化技術的表現,2015年十大云計算宕機的收入損失超過了31 Million美元,顯然這樣的技術無法滿足運營商的可靠性要求。運營商當然不愿意放棄自己提出來的NFV,更何況還有SDN躍躍欲試,那該怎么辦?本文給出了一些提升NFV可靠性的思路。
我們需要先來看看部署了NFV 之后,對可靠性的判斷準則是否發生了變化。NFV網絡中增加了軟件控制部分,這樣可靠性評估準則要考慮服務停機時間與硬件停機時間的差異,要建立彈性軟件的評估方式,這樣當硬件檢測到故障時,還要通報給NFV,這個過程要有延遲時間,所以需要故障檢測和切換技術要比以前更精確,之前故障檢測是秒級,現在就需要毫秒級,小于50MS。之前故障切換是秒級,現在就需要微秒級,在幾百微秒以內。部署NFV之后,需要用新的工具來解決故障告警、根本原因分析和恢復,這是因為虛擬化技術使得構成服務的部件分散在網絡多個不同的地方,檢測麻煩不會像觀察紅燈一樣簡單,需要軟件綜合分析。
NFV環境下要提升可靠性,需要具有三個方面的處理機制:一是故障檢測預測,通過對數據控制流檢查、性能監視、網絡設備日志分析、異常檢查等等,判斷有無發生故障;二是故障診斷定位,一旦發現故障即刻啟動故障定位,通過分析確認哪里發生了故障,故障的相關性和優先圖;三是故障恢復,根據故障位置,啟動故障恢復程序,可以進行業務遷移、冗余備份、數據保護等恢復動作,通過這三步來達到提升NFV可靠性的目的。這樣說很簡單,實際實現起來是非常難的。就拿故障診斷來說,取決于故障檢測的準確性,很多網絡故障,不少的網絡技術專家分析很久都無法明確原因,現在靠機器來完成,難度更大,要先將人的分析經驗輸入到機器中進行學習,然后由機器代替人來做處理,只有這樣切換才來記得,任何一個環節有人為的介入,處理時間都會被拉長,業務就會受到影響,NFV采用軟件自動控制的方法,可以將故障發現、排查和隔離過程控制到毫秒級,達到網絡高可靠性的目的。
僅具備這些處理機制還遠遠不夠,NFV環境下故障檢測的數據規模大,硬件和軟件解耦導致涉及的網絡層次更多,很多數據還可能不能反映出故障原因,甚至網絡已經故障了這些數據還表現正常,這樣就不會觸發故障診斷。還有NFV環境下,發生故障傳播快和容易相互干擾,易于產生不可預知的故障,這些都會給診斷故障帶來很大難度,就算分析出來故障位置,不同的軟件可靠性評價準則不同,執行的恢復動作也有差異。有些故障是需要中斷業務恢復的,有些故障是做局部微調就可以恢復的,當需要做這種恢復決策時,就算是人為評估都很難把握,更何況將這個決策權交給軟件去做,誤判一定時有發生。NFV技術也是一種全新的網絡技術,新的系統意味著有更多的軟件BUG。
為了進一步提升NFV技術的可靠性,還要在多個方面下功夫。運營商網絡對可靠性的要求是5個9,而x86的可靠性通常只有2~3個9,所以基于x86實現的NFV可靠性不夠高。這時可以考慮虛擬機分散開來,將同一個網元功能的多個虛擬機散布到異址物理設備上,降低單點故障對網絡的影響。通過對虛擬機進行熱備份,專有設備備份及建立通用備份池對多個網元的虛擬機進行備份的方式,提高網元可靠性。還要在故障檢測上下功夫。比如支持黑盒故障的檢測,支持未知錯誤的監測,檢測時間要快,還有就是可擴展性好。將這些檢測數據獲取到了以后,通過機器學習的方式進行檢測,將低維數據變化到高維數據。一般通過機器學習的檢測有:有監督的學習,無監督學習和半監督學習,它們區別在于是否需要標簽訓練數據。在NFV技術中一般采用無監督學習方式。通過機器學習就可以引入很多的數理統計技術,來增強分析的準確性,這些技術可以來自基于統計、基于深度,基于密度和聚類等等方面綜合分析出來結果。NFV技術可以采用動態自適應快速故障檢測技術,如SOM算法、LOF算法、Bayesian Network算法等。對CMS、CNFM等管理系統同樣采用備份、帶外管理等機制,進一步提升系統可靠性。當通過這些一系列的軟件得到故障原因后啟動自動告警、自動切換等一系列措施,實現系統故障自愈,還需要支持在網絡軟硬件解耦后進行端到端的故障定界定位,對各個組件的安全信息比如日志、告警和異常輸出等進行智能分析和關聯,快速定位或提前預測系統安全隱患。谷歌數據中心的建設思路在可靠性方面考慮良多,在處理宕機這類故障的時候,可以依靠軟件迅速地平滑過度,實現任務轉移,以最快的速度保證SLA指標。
NFV將是一種革命性的新技術發展趨勢,將對網絡技術發展帶來深遠的影響。NFV技術在數據中心,尤其是運營商的數據中心領域應用獲得了極大的認可,是運營商一直在推廣的網絡技術。雖然NFV在可靠性方面還有待提升,它真正走向市場和普及,還會面臨眾多的問題和挑戰,但這并不妨礙很多運營商愿意嘗試,NFV技術必將快速走向成熟。