在當今全面數字化時代,“數據、標準、技術和場景”是數據中心智能化運維體系建設的核心要素,依托服務流程體系和IT連續性體系,利用大數據、人工智能等新技術,實現數據的集中管控。構建以監、管、控、防四大平臺為支撐的新一代“服務化、數字化、平臺化”的運維服務體系。
數據和標準體系是實現數字化運行態管控的智能運維體系的基石,其中數據治理和數據生產是關鍵。
數據治理標準:數據作為基礎性戰略資源,核心價值在于應用,在于其賦值和賦能作用。如何實現數據資源和數據交換共享是數據發揮價值的關鍵因素,也是數據標準的關鍵組成部分。
數據生產標準:建立數據中心的運營管理標準,包括技術產品目錄、非功能需求標準、操作維護規范,從數據生產源頭來保障運營數據的標準化,提升數據質量。
以數據為基礎的運維PaaS服務平臺構建
數據中心智能化運維不只是利用機器代替人工,也不僅是大數據+自動化,而是利用人工智能技術,充分發掘各項數據資產價值,探索數據中心運營的創新。
我行持續探索智能化運維平臺化能力建設,在整體架構上涵蓋數據采集、數據處理、服務組件和展示,從數據范圍、數據質量、數據應用和數據技術多個維度構建智能化運維數據支撐體系。
數據采集:數據源按業務屬性劃分為配置數據、運行數據、行為數據。配置數據包括基礎環監數據、硬件設備數據、基礎軟件數據及應用程序數據多個層級;運行數據包括基礎設施、硬件設備及應用程序運行過程中產生的數據;行為數據包括生產運行過程中人員維護、自動化維護產生的各類數據。我們圍繞數據中心的數字化運行態建設逐步推廣采集范圍。
數據處理:由于數據的多源異構性,利用大數據技術建立一個運營數據倉庫,實現數據中心的數字化運行態畫像,建立各類智能化運維場景的能力。
服務組件:建立組件化服務引擎,為具體的應用場景提供機器算法、生物識別等服務組件。
場景應用:應用是結合實際運營業務場景需求,延展數據中心運營管理的深度與廣度。如我們正在探索建設的動態基線監控、海量告警壓縮、業務容量預測等應用場景。
以“運維PaaS平臺框架”為藍圖的服務平臺建設
光大銀行在“智能化運維”的探索與實踐中,以大數據平臺為基礎,逐步推動光大銀行智能運維場景的落地實現,構建新一代監控平臺、自動化平臺、安全管控平臺。
運維大數據平臺,依托大數據技術,實現網絡流量、交易流量、日志等全面運營數據的實時采集;實現對數據中心的“數字化運行態”畫像,建立數據中心級數據管控平臺。
統一監控平臺,運用Hadoop、Spark等大數據技術在監控領域的應用,對海量生產運行數據的高效分析與處理,實現監控報警的大集中管理,提升監控管理的標準化、自動化能力。
自動化運維平臺,以知識共享、賦能理念為基礎,建立圍繞配置管理的自動化運維平臺。實現監、管、控一體化,有效地推動運維工作的標準化、規范化,降低人工操作風險,提高運維服務的質量和效率。
安全管控平臺,以防御協同化、分析智能化、響應一體化、流程電子化的統一運營為理念和目標,聚合全行安全態勢感知所需的各類信息安全監測、攔截、信息安全管控技術措施產生的運行數據及其他關聯性數據,打破各類數據“孤立、無關聯”的現狀,結合外部安全威脅情報數據,驅動信息安全工作提升到新的階段,將信息安全風險管理從被動變為主動。