數據中心網絡是由成千上萬臺設備連接在一起組成的。這么多設備不出一點問題是不可能的,所以數據中心都有自己的網絡運維團隊。不過,很多時候出現網絡故障時,很多設備無法再通過網絡登陸,導致短時間不能定位問題并恢復業務,尤其是無人值守的數據中心,運維的人員根本來不及去現場,這樣網絡中斷時間可能達到小時級。現在,網絡中斷時長已經成為考核數據中心的一項必選指標,很多數據中心都要求全年無故障,如此除了建設完備的冗余網絡之外,還要解決故障時設備無法及時登錄的問題。
其實,任何一臺網絡設備都設計了管理口、串口、調試口,這些端口獨立于轉發層面,即使設備網絡轉發出了問題,這些端口依然可以正常使用,這樣就能在網絡故障時檢查和分析設備的運行狀態,快速定位問題。除非設備的CPU出了故障,或者軟件徹底跑飛,這樣影響到了管理口,這時也只能將設備隔離或重啟設備來快速恢復業務。這些端口只能到機房接上線纜才能登錄,也是非常不方便的,對于大型數據中心,機房分散到全國各地,網絡工程師還沒有機房多,出了問題根本無法保證人在現場,所以很多人傾向于建設一套OOB網絡。
OOB(Out Of Band)帶外網絡,是指通過一套與任何數據轉發網絡都沒有關聯的獨立網絡,網絡控制中心可以連接到各個服務器或任意一臺網絡設備的管理口或串口,當數據轉發網絡出問題時,OOB網絡不受影響,這樣就可以通過OOB訪問設備。有了OOB,無疑是給數據中心網絡一根救命稻草,在關鍵時候能起到大作用。OOB的作用不止于此,將設備管理和數據轉發層面分開,正是未來網絡發展的大趨勢,OOB也屬于這方面的技術之一;OOB僅跑管理流量,SNMP、監控等網絡功能都可以放到OOB,避免受轉發數據的影響;OOB網絡架構簡單、流量也不大,不涉及復雜網絡協議,只要二三層互通即可,所以幾乎不出問題,可靠性非常高,OOB不像數據網絡要經常因為業務調整網絡,OOB只要保證互通即可,OOB可以采用一些價格便宜的低性能網絡設備實現互聯即可,建設和維護OOB網絡,對于數據中心成本并不高,很多數據中心都開始建設OOB。OOB將所有網絡設備集中管理起來,方便研究整個網絡的設備運行行為,找出不足,可提升網絡運維的效率。
不過,任何事情都有兩面性,建設OOB這件事兒也有弊端。首先,OOB也是通過互聯網連接起來,如果是運營商網絡故障,比如傳輸設備中斷,OOB和數據網絡都中斷,有OOB也無濟于事,OOB的控制范圍都是在數據中心內部網絡,外部就不受其控制了;其次,網絡設備的管理口、串口、調試口作用是不同的,OOB一般連接的是管理口,不可能將三個口都串接到OOB中,這樣一旦需要串口(完全獨立與數據轉發和管理口,幾乎不受網絡影響,除非串口本身壞了或者設備CPU故障)和調試口(雖然幾乎很少用到,主要是設備開發過程中使用,但偶爾定位問題使用也非常有效),還是需要人員到機房現場才行;第三,OOB的網絡一旦出問題,只能現場處理,無法再通過網絡去訪問OOB網絡中的設備,所以OOB網絡的運維成本不低,盡量要確保OOB不出問題,網絡越簡單越好;第四,OOB網絡里都是設備的管理數據,重要性很高,尤其是各個設備的登陸密碼和方式,一旦被人竊取,相當于將整個網絡向人敞開,非常不安全。OOB網絡中設備大多防攻擊能力很差,若部署額外的安全設備,OOB的投入成本就會變高,這時就要在安全性和可靠性方面上做取舍。總之,OOB也不能解決一切網絡問題,認為有了OOB,網絡運行就能高枕無憂了是不對的,OOB會帶來新的問題,只不過從可靠性角度來看,OOB的確會增強網絡安全性,尤其是在網絡故障時,OOB能起到大作用,是網絡的救命稻草。
在數據中心網絡中建設OOB已經成為必然趨勢,尤其是高標準數據中心,必須有這樣一套OOB網絡。OOB的網絡設備可以選擇轉發性能低一些,網絡協議單一的傻瓜式設備就可以,盡可能地降低建設成本。同樣OOB也要求是7*24小時的高可用性,隨時隨地可以訪問OOB,試想如果突然無法通過OOB訪問數據中心的網絡設備,就好比人突然失明一樣,雖然還沒遇到危險,但也是一件非常恐怖的事兒,所以一定要確保OOB網絡的可靠性。將OOB的網絡建設簡單就是這樣的目的,減少故障風險點。
數據中心有了這根救命稻草OOB,也不要掉以輕心,OOB并不能解決任何網絡問題。當某些設備CPU掛死,兩個轉發通道都不能轉發時,有OOB也無濟于事,如果這時OOB還能連接串口,又給了處理故障的一線機會,通過串口采集必要信息,并對設備執行重啟去恢復業務,如果連串口都不響應了,恐怕只能對設備進行現場斷電、設備下線處理了。所以,OOB只不過是在網絡中斷時,提供了這樣一個快捷通道,給了數據中心網絡一根救命稻草,至于關鍵時候能否救命就要看造化了。這就好比是公路上的應急通道,公路上出現了交通事故,交警可以通過應急通道快速抵達事故現場,緊急車輛也可以通過應急通道通過。不過,我們更多時候看到的是,一旦出了交通事故,應急車道就會被普通車輛占滿,導致事故處理時間更久。數據中心的OOB網絡一定要完全獨立于數據轉發網絡,兩者完全獨立,互不影響,這樣才能避免出現象公路上應急通道被堵的情況。
版權聲明:本文為企業網D1Net原創,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。