隨著數據中心建設的規模越來越大,新技術越來越多,承載數據中心業務的網絡變得異常復雜。為了適應數據中心業務的發展,數據中心網絡也在不斷更新與變化,這給日后的運維帶來了極大難度。談到數據中心網絡運維,其實是老生常談的問題,也是數據中心里問題最為突出的部分,這主要源于網絡技術的封閉性和排它型,當然網絡協議和設備設計的復雜性也有一定關系,這導致掌握網絡運維要領要比掌握其它技術難度要大得多,所以在網絡運維過程中才出現了各種各樣的問題,而且網絡設備一旦出現問題,尤其是核心網絡問題,影響的將是整個數據中心的業務,有時又沒有網絡備份可用,在這樣危機的情況下更考驗運維人員的綜合處理問題能力,各種因素影響下導致了網絡運維上出現了多種難題,本文就來說一說這些難題,看大家在數據中心運維工作中是否有同感,是否有更好的應對之策。
難題一:太多手工操作期盼減少
數據中心網絡運維人員最怕的就是做網絡變更,因為涉及太多的命令操作,而弄不好就容易出錯。如果網絡運維可以有自動部署的方式,那可以大大減少運維人員的工作時間,也不容易出錯,作為數據中心網絡運維人員沒有必要對這些網絡底層命令有過多了解,只要通過網絡變更滿足業務需求即可。實際上,這類難題在運維工作中是最為突出的,很多網絡設備命令晦澀,讓人難以理解,運維的人根本沒有時間和能力去走讀每篇RFC文檔,需要的是簡單明了的解決方案,SDN的出現或許可以減輕運維人員對手工操作的依賴,但未來能夠發展到何種程度,還是未知數。
難題二:網絡變更很困難跟不上需求
數據中心業務部門的需求是多種多樣的,尤其是為了業績,很多不合理的需求也接納,到了實施的時候才發現困難重重。很多業務部門對數據中心網絡并沒有清晰的了解,也不知道現有的網絡能夠提供什么,這就導致兩面的脫節,最終導致很多需求根本無法通過網絡變更來實現,或者是網絡變更會影響現有業務,付出很大的代價。
難題三:網絡操作需跟系統集成商協作問題
網絡只是數據中心最為重要的一部分,任何業務的運行都離不開網絡部分,所以網絡的任何操作都需要與其它系統模塊溝通好,避免造成整個系統運行受到影響。這里就涉及到和系統集成商打交道。
難題四:忙于維護 難快速部署新業務
如果一個數據中心網絡本身設計就有先天缺陷,那頻繁出問題是必然的。這樣的數據中心網絡運維人員也是每天都忙于處理各種各樣的網絡問題,尤其是已經影響到業務運行的問題,這樣根本沒有精力部署新業務。這樣的惡性循環導致整個數據中心的業務都無法推進,最終流失大量客戶。
難題五:部署網絡麻煩
數據中心里的設備要實現互聯互通,都要有自己的IP地址或MAC地址,用這些來代表自己在網絡里的身份。運維人員要對這些身份在網絡中進行適配,比如下發動態路由學習或者靜態路由,需要配置網關、DHCP等,這些配置甚至要在全網的所有網絡設備上部署。有的數據中心從核心到接入,多達數百臺網絡設備,一臺一臺配置顯然是非常麻煩的,如何減輕這方面的工作量,對于提升運維工作效率特別有意義。
難題六:簡單工具手動管理IP地址
網絡運維人員平時要對這些設備的IP地址進行管理,以便在使用時或者故障時能夠找到自己想要的那臺,這個數量是海量的。一個大型數據中心服務器上萬臺是很平常的,這樣整理這些設備的IP地址就需要很長的時間。運維人員只能通過簡單的Excel表格來管理,用的時候進行查找,有更新時進行記錄,這個數據必須要實時更新才能準確,這需要運維人員投入大量的精力來維護這個表單,工作繁瑣。
難題七:網絡設備類型多,全掌握難度大
最令運維人員頭痛的是網絡設備類型繁多,不同廠家的設備命令風格和含義均不同,就算是一個廠商的不同型號設備也會不同。這給網絡運維帶來了極大難度,運維人員不得不掌握數據中心里所有設備的基本操作命令,要花大量的時間去熟悉這些設備,一般的網絡設備命令都有數千條,要全掌握基本不可能,再加上是不同型號的設備,運維人員會瘋掉。
難題八:網管團隊技術水平不高
目前數據中心的網管主要是對運行的網絡設備進行監控,但實際上主要就是將設備上的日志告警提取出來,然后給出一些告警提示,還有就是通過網管可以獲取一些設備信息。實際上,網管對運維工作支持不是很大。真正的智能網管應該代替運維人員的部分工作,比如下發配置變更、業務故障自動切換網絡、網絡自檢等等,通過網管實現對網絡真正的智能化管理,減少運維人員的工作量,要實現這些還需要網管技術進一步提升。
難題九:要掌握的工具太多
以太網RFC協議有8000多篇,根據網絡的五大層有多種多樣的協議定義。正是網絡協議的多樣性,所以要設計很多的輔助工具去掌握它,在進行網絡分析時也要借助很多的工具。比如XPING、Tracert、抓包工具、IP掩碼換算等等,這些工具很多,很多還是網絡上開源的小工具,有各種各樣的BUG,使用起來也不方便,但是在網絡運維時又不得不用,有時實在用不了就自己開發個小工具,正是因為這樣,所以網絡上才出現了那么多的網絡分析小工具。
難題十:運維工作苦、收入低
網絡運維是功能,性價比不高,作為數據中心里重要的一部分,網絡的重要性并沒有體現到網絡運維的收入上,這就導致沒有人愿意在運維工作上深入鉆研,做運維的人員大多是工作1~3年的初級技術人員,缺少一些10年以上資深的網絡專家,這導致數據中心的運維水平無法提升。
顯而易見,數據中心網絡運維面臨不少難題,是數據中心里的短板。哪個數據中心能解決好網絡運維的問題,也就能在這個圈內混得好。