在今天云計算時代,業務和數據的高度集中,如何使得數據中心網絡設備實現業務應用7*24小時無間斷運行?這是個問題。
不破不立,傳統方法已經黔驢技窮
數據中心業務的多樣性和快速迭代,迫使網絡需要不斷升級才能滿足用戶的業務需求,然而升級難免要中斷業務,如何將業務中斷的影響降至最小。一直以來,工程師都在不斷探索,想了很多方法,比如夜間升級、構建多條備份路徑、打補丁等等。這些方案在一定程度上降低了業務中斷的影響。但是在云計算和大數據時代的今天,就顯得有些捉襟見肘了。
1) 在線補?。╬atch)
在線補丁技術可以實現不中斷業務修正bug,屬于ISSU的范疇,但是補丁能解決的問題只是修復bug,并且只能是應用軟件層面的bug,如果涉及操作系統或者SDK層面,則也無法修復。對于用戶新增業務功能的需求根本無法滿足。
2) 在夜間或者凌晨進行全系統軟件升級
這種升級方式流程相當復雜,首先必須通知所有相關客戶,協調升級時間,對時間段要求非常嚴格,一旦升級時間錯位,是要賠償客戶損失的。其次要制定嚴格的升級操作步驟和回退步驟,如果在規定時間內沒能完成升級,必須盡快恢復到升級前的狀態,版本升級不得不重新安排,這就導致新業務無法按時提供或者缺陷不能及時修復。極大的時間壓力也增加了人工操作失誤的概率,同時增加了人力及管理的成本。
3)建立多條等價、備份路徑,保證升級時業務依靠備份路徑能夠正常運行。
版本升級時,先將業務切換到備用路徑來,以此來保證業務的正常運行。但在這種情況下需要調整數據中心網絡配置,增加了出錯的概率和延長了升級時間,同時也可能由于數據中心業務的負載調整導致用戶流量集中而引起服務中斷。如果現有網絡不存在備用路徑則這種方法無法實施。
而今天互聯網應用如空氣一樣如影隨形,網絡不再區分白天和黑夜;信息高速路上也沒有主備鏈路,只有負載均衡,每條鏈路都不會閑置,都在最大化的進行信息交互。面對如此高標準的數據中心網絡,傳統修修補補的升級方法已經落伍,必須打破傳統思維,重新尋找根治的方案。
治本之道:業務在線升級ISSU技術
業務在線升級ISSU技術,給無中斷升級帶來了全新的理念,它的核心思想就是保證升級過程中數據流還能正常轉發,完全不受升級影響。圍繞著這個核心,工程師們設計實現了控制面和轉發面解耦,利用控制面復位升級,轉發面繼續運行的方法,保證升級過程中數據流能正常轉發,業務不被中斷。這一突破,讓業務不中斷升級成為了現實,邁出了業務在線升級的第一步。
然而,這種控制面復位的方法也存在著一定的缺陷。因為控制面復位,無法處理協議報文,如果此時協議狀態變化,由于控制面無法處理,仍然會導致業務中斷。況且控制面復位時間通常比較長,很難保證在這段時間內,協議狀態不變化,升級仍然存在較大的風險。
ISSU的創新之路:進程倒換技術
基于對數據中心網絡多年的技術積累,華為數據中心交換機在ISSU技術領域開辟了一條嶄新的道路,那就是進程倒換技術。利用進程備份,進程倒換技術,徹底擺脫了升級過程協議狀態不能變動的約束,讓網絡升級更加高效透明,完美實現了數據中心網絡升級業務不間斷的需求。
華為數據中心交換機采用的進程倒換升級方法,控制面不用復位,直接創建新進程,新舊進程數據備份同步完成前,舊進程仍然正常運行,控制面協議變化不受影響,數據同步完成后,新舊進程倒換,新進程接管全部業務,關閉舊進程。整個升級過程,設備的控制面協議不受任何影響,周邊的鄰居設備絲毫不感知,真正實現透明升級。
華為數據中心交換機不僅支持單臺設備的ISSU無損升級,也支持數據中心網絡中常間的交換機堆疊組網(CSS)和縱向虛擬化組網(SVF)下的ISSU無損升級,實現了數據中心網絡多場景組網下的ISSU升級全覆蓋。
華為數據中心交換機創新的ISSU技術具有如下特點:
進程升級,效率高:進程備份倒換時間不大于30秒,時間短,效率高。
透明升級,不感知:升級過程中,協議報文正常處理,周邊設備不感知,完全透明化。
操作簡單,易運維:整個升級過程只需執行一條命令,其余步驟全部自動完成。如果升級過程中出現異常,會自動回退到升級前的狀態,即使升級失敗,也能保證業務不受任何影響。
華為數據中心交換機創新的ISSU(In Service Software Upgrade)在線業務升級技術,打破傳統,獨辟蹊徑,采用多進程備份方式高效快速升級。真正做到業務無中斷,設備不復位,升級無感知,為數據中心用戶打造了真正的7*24小時無間斷網絡。