在過去一周,熱衷“互聯網+”主題的大家冷汗不已,“支付寶”和“攜程”接踵而至的運維保障事故,讓一直以互聯網為傲的IT圈一片唏噓。公開報道的事故原因涉及網絡線路中斷、運維人員誤操作,因此造成其服務較長時間無法恢復。作為一個在IT運維領域工作多年的老兵,看到這些有多年運維經驗的企業仍然會在應急響應、操作規范性等基礎運維管理工作上栽跟頭,其背后折射出的是國內大多數企業運維管理水平還無法保障業務穩定運行的現狀。
目前國內企業IT運維管理工作中突出存在的問題主要有四個:
第一:自動化程度不高導致誤操作幾率倍增。當前企業運維例行操作的工作大多還依賴手工,年復一年,這樣即便是簡單重復的工作,出現誤操作的幾率也會成倍提升。隨著企業業務量的增長,IT設備數量和運維工作將同步增加。但基于編制和成本的考慮,企業的IT人員配備無法滿足運維需求。這樣會導致工作壓力過高,促使誤操作幾率提升。另外,IT人員的穩定性較低,新人在技能和業務熟悉程度都有限的情況下,出現誤操作的幾率更大;所以通過自動化運維系統替代大量重復繁雜的例行人工操作,這種方法可以降低誤操作幾率;同時,也是IT運維的發展趨勢。
第二:缺乏有效的資源管理使運維效率低下。企業做好IT運維服務,首先需要及時收集、分類、更新相關機房資源、物理資源、平臺資源、虛擬資源、應用資源到數據資源各類服務對象的信息;如果出現變更的情況,一旦變更前不能準確獲悉可能影響的所有相關資源信息,就會引起無法估量的損失;如果在承接業務需求時,不能知曉現有系統性能、存儲和網絡情況,就會讓業務上線成為空談;如果在采購新設備建設新機房時,不能了解當前運算資源的忙閑程度,就會讓企業浪費投資決策失誤;所以只有完整準確可用的資源管理服務,才能將運維工作的效率大大提升。
第三:風險評估與應急準備流于形式使“狼來了”成真。不可否認當下企業越來越重視風險評估,考慮業務連貫性的問題;但能夠真正從業務出發,考慮所有可能風險并給出相應對策,同時能夠堅持演練的企業卻少之又少;首先風險評估需要運維團隊中具備或協調理解業務需求的資源,能夠對風險做出正確判斷,尤其不能遺漏自認為不會發生的或小概率的問題,通常確是損失較大的風險;其次對風險能合理分類分級,提供企業能承受的恢復方案,其中不只包括IT部門還包括業務部門、市場宣傳部門、法務部門等整套方案;最后為確保恢復方案的可行,一定要定期演練并及時總結和完善方案,風險模擬越真實,演練帶來的效果越可信,當然企業要做好承擔由于演練帶來的新風險以及演練的相關成本;流于形式的風險應急準備工作只會讓“狼來了”成為現實。
第四:能否敏捷應對業務需求變化是判斷 IT價值的最大因素。最后一個問題就是IT運維不能只埋頭拉車而不懂抬頭看路。運維的目標說到底就是要保障業務的平穩運行,在業務需求變化時也能保持敏捷感知,并隨之做出相應調整。但IT運維的管理者們常常會被每天變更、故障、應急等具體事物糾纏的不可開交,而且管理者們大多是技術出身,更喜歡研究專業的問題。所謂不能跳出畫看畫,迷失在忙碌中卻忽視了最終的目標。其實從運維工作的規劃開始,就要瞄準業務規劃的目標設計;具體工作中也要時刻保持與業務部門的密切溝通,確定運維的保障工作也是業務工作中所需要的內容;當業務需求發生變化時,IT運維部門更要主動出擊,了解運維工作的需求變化,并做出積極調整;業務成功,才是運維的成功。
說一千道一萬,做好運維服務,就要以業務發展為綱,智慧服務為翼,專業和管理并重,才能讓運維服務的價值得以充分體現!