隨著中國經濟的快速發展,工商銀行、農業銀行、中國銀行、建設銀行等大型商業銀行已經處于世界前列,支撐其IT系統運行的數據中心面臨IT設施規模快速擴張、IT應用數量不斷增多、運行壓力越來越大等挑戰。如何實現365天24小時的IT運維,保證IT系統活著,是銀行數據中心運維極為關鍵的一環。
在由企業網D1Net主辦的2018北京部委央企及大型企業CIO年會上,中國銀行數據中心副總經理楊志國分享了對于數據中心運維的經驗和見解。他提出,要建立數據中心可持續發展的一體化運維管理體系,加速向智能化、數字化轉型。
“工商銀行、建設銀行、中國銀行等國有銀行的數據中心每天面對海量的交易量,像今年雙十一我們的交易量高達7億,每天有大量的IT設施和數據需要7*24小時進行監控和管理。如何保證運維工作的有機統一,對外的不間斷服務,是數據中心的重點。”
楊志國指出,國際上自動化程度非常高的數據中心,利用程序來解決問題的有效性非常高,假設監測到100種事件之后,無需人工干預而采用自動化解決的概率能達到60%。”
而要實現這一切,首要是打造以“監管控”為核心的一體化運維管理體系,包括一體化監控以及自動化管理,把監控的事件和流程打通,并進行數據統一呈現,展現各種報表。
向智能化運維轉型
楊志國認為,一體化運維發展的終極形態是智能數字化運維模式,其特點是自動、開放、智能,人工干預少,高度自動化、精細化、精準化,通過大數據技術實現機器學習以提供智能分析決策,實現運維能力服務化。
“目前國內還沒有能實現智能化運維模式的數據中心。大多數銀行數據中心的運維能力不足,架構復雜、海量節點、多組件、跨平臺,且自動化覆蓋不足,靠人工滿足不了運維需求。尤其是隨著數據量的增大,運維的問題往往暴露得越來越多,運維場景割裂,事件監控有效性不夠,人工決策效率低,突發性事件處理能力差等等。”
依靠大數據和人工智能技術,則可以更有效地應對IT運維上的挑戰,楊志國詳細描繪了智能運維的場景:
在監控管理方面,傳統運維是利用人工經驗來設定監控閾值,而智能運維場景事機器通過歷史監控數據規律的學習,自動生成更加準確的閾值或者通過異常模式識別去主動判斷異常的發生。
在故障定位方面,不再需要運維人員翻閱大量的監控數據、事件日志,來定位一個問題。而是由機器根據系統中的網絡、機房、程序上下游調用關系等,綜合所有監控數據和采集日志來分析和定位。
在應急操作方面,傳統由人工觸發應急預案,編寫應急手冊和腳本,機器全面監測所有交易鏈路,分析交易量變化曲線,發現故障點,自動進行隔離、分流和限流。
楊志國最后總結道,IT運維解決了數據中心“活著”問題,怎么樣“活得更好”,應從重點維“穩”走向經營業務價值,意味著IT管理要更加精細化、自動化、智能化、數字化、可視化。IT運營管理的架構也將在傳統“監、管、控”的IT運維管理基礎上發展和變化,以適應IT運營在體驗、效率和效益方面的更多要求。他建議,數據中心要著力開展安全高效的運營管理體系建設,建立完善的風險管理體系,智能、數字化運維體系、服務管理體系、技術管理體系、性能質量控制體系,確保了信息系統安全穩定運行,有力支持快速業務發展。