在新技術層出不窮的今天,數據中心運維工作總是得不到足夠的重視。數據中心在不出任何問題的情況下,對運維的工作是持默認態度的,但如果出了一系列問題,付出的工作可能毀于一旦,工作的績效有點要拼人品的味道。其實,正如那句話所說的“古羅馬不是一天建成的”那樣,數據中心發生了故障,甚至是致命的故障,很多時候并不是突然就發生的,是平時工作的長期忽視才最終釀成了悲劇。如何做運維才能體現出工作的價值,如何做運維才能降低數據中心出現故障的風險,在這樣的需求背景下,智能化運維應運而生。
數據中心運維工作主要包括配置管理和監控,運維人員每天都要進行大量的模塊維護操作。運維的操作設計程序更新、配置修改、數據傳輸以及各種自定義的命令執行。在運維過程中,這些大多是通過手工操作或編寫腳本的方式,將模塊更新到生產環境中,手工操作不可避免的會帶來誤操作,效率低下,甚至出現過模塊上線操作排隊的現象。另一方面對數據中心運行的監控,數據中心里運行著成千上萬臺的各種設備,經常會出現這樣那樣的問題,要等到故障反映到業務層面,那實際上已經造成了損失,所以在嚴重故障發生之前,如果能夠發現一些設備運行的異常表現,及時消除就可以減少故障對數據中心的影響,對數據中心進行監控就是將危險消滅在搖籃之中。然而數據中心里的設備、應用程序、組網包含很多小系統,非常復雜,如果靠人去檢查,不僅效率低還容易漏掉,而通過智能化運維就可以通過機器去檢查所有運行的設備,并且對這些運行的設備進行監控,發現隱患及時告警,當運維收到這些告警時,再采取行動。智能化運維不僅將運維人員從繁瑣的工作中解放出來,而且還大大提升了運維工作的效率,是未來數據中心運維發展的主要方向。所謂的智能化運維,在這里給下個定義,就是用機器來代替運維人員,在最少人工干預下,結合運用腳本與第三方工具,保證業務7*24小時高效穩定運行,這也是所有數據中心運維工作的終極目標。
隨著數據中心規模越來越大,通過人工的方式做數據中心運行幾乎不可能,這使得智能化運維得到了很快發展,也出現了很多智能化運維的軟件。比如:監控系統用nagios,流量監控用cacit,集群監控用ganglia,ping監控用ipmonitor或xping,配置管理用puppet等等,這些軟件都是開源的,可以根據自己數據中心的業務特點進行修改,形成自己的運維工具。一個智能化的運維工具要想覆蓋到所有的設備,所有可能出現的風險,是一件非常困難的事情,因為數據中心涉及的設備和技術實在太多了,并且這些技術還在不斷地更新著。數據中心對運維的要求是:事前預警:在故障出現之前,管理人員應該能在任何時間,任何地點接收到告警信息,并及時處理問題,把故障隱患扼殺在搖籃中;事中恢復:天有不測風云,即使是再完美的方案也可能有預料之外的故障,為保證在最短時間內恢復業務,關鍵數據不因故障丟失,我們需要有完整備份方案來應對自如;事后存檔,以便吸取教訓,避免故障二次發生。要實現這樣的運維要求,可不是一件容易的事情。這需要一個經驗豐富且高效的運維服務團隊來完成。隨著我們的業務系統不斷增加,業務量的不斷上升,成熟的運維服務基本會借助第三方工具,高效的進行軟件的部署與運維。
智能化運維要做到事前預警,事中恢復,事后存檔,實際上是要有大量的工作要完成。首先,要對重要的設備實施主動式監控,如路由器、交換機、防火墻等。當這些設備在運行過程中出現告警時,要及時通知到運維人員,對于一些簡單的告警智能化工具可以自行處理并修復,直接將處理結果反饋給運維人員即可。其次,新業務部署或配置變更檢測也要做到自動化。新業務部署時涉及很多設備和應用程序的調整,這個涉及大量的人工操作要有智能化工具來代替,還有各種設備的配置參數若發生變化,也將觸發變更流程轉給相關運維人員進行確認,通過自動檢測協助運維人員發現和維護配置。第三,維護事件提醒自動化,通過對設備和應用活動的時時監控,當發生異常事件時系統自動啟動報警和響應機制,第一時間通知相關運維責任人,以便采取進一步行動。第四,系統健康檢測自動化。定期自動地對設備硬件和應用系統進行健康巡檢,配合運維服務團隊實施對系統的健康檢查和監控,及時發現系統級的運行風險。最后,維護報告生成自動化,定期自動地對系統做日志的收集分析,記錄系統運行狀況,并通過階段性的監控、分析和總結,定時提供運維服務的可用性、性能、系統資源利用狀況分析報告,以便數據中心可以根據運行情況,進行下一個階段的投資。實際上,已經有不少的公司看到了數據中心運維的市場機會,推出了一些智能化工具,不過由于每個數據中心都有自身的特點,不少工具并不適用,需要大量的修改,真正能夠給數據中心運維帶來革命性改革的工具還沒有看到,因為智能化運維還有很長的路要走。
在可預見的未來,運維的角色將變得越來越重要,數據中心的運維工作也將越來越繁重。智能化運維不僅能滿足我們對數據中心運維的要求,解放生產力,還能使我們的運維管理更加規范化,標準化,從而真正意義上的實現智能化運行。