數(shù)據(jù)中心監(jiān)控系統(tǒng)是一個軟件和硬件結(jié)合的復(fù)雜性系統(tǒng),本文將對監(jiān)控管理系統(tǒng)的核心軟件模塊的組成、技術(shù)、應(yīng)用場景等進行詳細(xì)介紹,為系統(tǒng)設(shè)計提供必要的參考。
監(jiān)控管理系統(tǒng)由四大系統(tǒng)組成:監(jiān)控系統(tǒng),運行管理系統(tǒng),總控中心系統(tǒng)和基礎(chǔ)服務(wù)系統(tǒng)組成。以下分別對四大系統(tǒng)中的核心模塊進行詳細(xì)介紹。
一、監(jiān)控系統(tǒng)
監(jiān)控系統(tǒng)由兩大子系統(tǒng)組成:信息采集子系統(tǒng)和信息處理子系統(tǒng)。
1、信息采集子系統(tǒng)
為實現(xiàn)模塊化設(shè)計,分布式部署,提高監(jiān)控管理系統(tǒng)穩(wěn)定性,信息采集子系統(tǒng)基本已經(jīng)硬件化,即由一個硬件設(shè)備或者硬件模塊,代替了傳統(tǒng)的用純軟件方式來實現(xiàn)信息采集功能。
采集模塊主要功能一是提供各種形式的接口,以便接入各種不同的監(jiān)控管理對象;二是實現(xiàn)各種采集信息的協(xié)議解析;三是將解析后的信息按統(tǒng)一格式上傳至處理單元。
2、信息處理子系統(tǒng)
信息處理子系統(tǒng)是監(jiān)控管理系統(tǒng)中完成監(jiān)控功能的核心子系統(tǒng),要實時、靈活、準(zhǔn)確地加工、運算、存儲大規(guī)模數(shù)據(jù),需要設(shè)計好幾個關(guān)鍵模塊:復(fù)雜事件分析處理模塊、調(diào)節(jié)控制模塊。
(1)復(fù)雜事件分析處理模塊
復(fù)雜事件分析處理模塊(CEP,Complex Event Processing)先捕獲各種基礎(chǔ)事件,然后分析整理,找出更有意義的事件(復(fù)合事件)。其中事件的分析整理,找出復(fù)合事件,正是CEP的核心,也是最困難的地方。復(fù)雜事件分析處理模塊工作原理如圖1,實時數(shù)據(jù)作為事件源接入事件處理總線,CEP引擎通過指定的規(guī)則,處理這些實時數(shù)據(jù)和緩存的歷史數(shù)據(jù),并通過事件處理總線將有意義的事件提供給事件消費方。
圖1 復(fù)雜事件分析處理模塊工作原理圖
一個典型的應(yīng)用實例是,在數(shù)據(jù)中心停電時,會引發(fā)大量的設(shè)備報警,通過復(fù)雜事件分析處理模塊進行分析后,則可從事件潮中分析出真正的告警原因,將所有設(shè)備報警合并成一條停電報警。
復(fù)雜事件分析處理模塊需要處理海里事件,處理壓力大。復(fù)雜事件分析處理技術(shù)不同于傳統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)處理,由實時產(chǎn)生的數(shù)據(jù)流驅(qū)動事件處理邏輯,在內(nèi)存中完成所有計算,性能有數(shù)量級提升,能滿足實時處理要求。復(fù)雜事件分析處理模塊的事件匹配規(guī)則是提高處理的有效性的關(guān)鍵,使用中,當(dāng)監(jiān)控對象的邏輯關(guān)系發(fā)生改變時,必須維護事件匹配規(guī)則,以保證處理的正確性。
(2)調(diào)節(jié)與控制模塊
總控中心系統(tǒng)對于影響到用戶業(yè)務(wù)系統(tǒng)安全的設(shè)備都是采取的只監(jiān)視不控制的原則,對于非核心業(yè)務(wù)和系統(tǒng),如環(huán)境監(jiān)測設(shè)備(如:新風(fēng)機、燈光照明)、安防系統(tǒng)(如:閉路視屏監(jiān)控系統(tǒng)、門禁考勤系統(tǒng))等是可以接收控制輸入的,可以利用這一特性,通過調(diào)節(jié)與控制模塊對數(shù)據(jù)中心進行精細(xì)化、智能管理。
調(diào)節(jié)與控制模塊工作方式有兩種:一種是手動調(diào)節(jié)與控制,一種是自動調(diào)節(jié)與控制。
手動調(diào)節(jié)與控制相對比較簡單,由人來進行判斷、決策,形成控制指令,通過監(jiān)控系統(tǒng)下發(fā)到對應(yīng)的設(shè)備,達到調(diào)節(jié)和控制的目的。此時,系統(tǒng)的調(diào)節(jié)和控制完全依賴個人經(jīng)驗,隨機性比較強。常見的手動調(diào)節(jié)與控制方式有遠(yuǎn)程開門,根據(jù)機房溫度,手動調(diào)節(jié)每個空調(diào)的設(shè)定溫度等。手動調(diào)節(jié)和控制不僅通過監(jiān)控系統(tǒng)來完成,也可以通過電話、短信等方式進行操作,如可以通過電話開門、短信查詢關(guān)鍵設(shè)備狀態(tài)等。
自動調(diào)節(jié)與控制區(qū)別于手動的地方在于,將人的經(jīng)驗數(shù)據(jù)內(nèi)置到了監(jiān)控系統(tǒng)中。監(jiān)控系統(tǒng)根據(jù)這些經(jīng)驗數(shù)據(jù),形成調(diào)節(jié)與控制邏輯。當(dāng)監(jiān)控系統(tǒng)采集到的數(shù)據(jù)流入該調(diào)節(jié)與控制邏輯單元時,該單元形成預(yù)期的調(diào)節(jié)與控制指令,下發(fā)到對應(yīng)的設(shè)備,從而實現(xiàn)了無人值守的自我調(diào)節(jié)。該技術(shù)最常見的一種應(yīng)用是聯(lián)動控制,如消防火災(zāi)聯(lián)動門禁開門、門禁開門聯(lián)動視頻錄像、消防火災(zāi)聯(lián)動實時視頻播放等。隨著綠色數(shù)據(jù)中心的發(fā)展,該技術(shù)也逐漸應(yīng)用到數(shù)據(jù)中心的節(jié)能領(lǐng)域,如空調(diào)群控技術(shù)就是這種思想應(yīng)用的一種實例。
二、運行管理系統(tǒng)
1、資產(chǎn)管理模塊資產(chǎn)
管理是資產(chǎn)與配置管理的一部分。在實際工作中,通常把數(shù)據(jù)中心物理形態(tài)的資產(chǎn)包括IT資產(chǎn)的新增、入庫、領(lǐng)用、上線(進機房)、下線(維修)、減少(報廢、丟失)等的管理定義為基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng)的資產(chǎn)管理,即對數(shù)據(jù)中心物理資產(chǎn)的生命周期管理,當(dāng)然此時的相關(guān)資產(chǎn)附帶了一些與基礎(chǔ)設(shè)施管理相關(guān)的基本屬性信息。
2、IT資產(chǎn)管理范圍與分類
(1)IT資產(chǎn)分類
IT資產(chǎn)按形態(tài)主要分為兩大類,即軟件與硬件。軟件主要包括系統(tǒng)軟件、工具軟件、應(yīng)用軟件;硬件主要包括服務(wù)器、網(wǎng)絡(luò)、存儲、IT辦公、場地設(shè)施相關(guān)設(shè)備。如圖2.
(2)資產(chǎn)管理的范圍
資產(chǎn)管理范圍除包括數(shù)據(jù)中心的服務(wù)器、網(wǎng)絡(luò)、存儲、IT辦公、場地設(shè)施相關(guān)設(shè)備,系統(tǒng)軟件、工具軟件、應(yīng)用軟件(如圖2所列)等資產(chǎn)外,還包括資產(chǎn)的與基礎(chǔ)設(shè)施運維管理相關(guān)的屬性信息如下:
基本屬性,此屬性用于記錄資產(chǎn)或設(shè)備的基本信息,包括生產(chǎn)廠商、型號、功耗、高度(限于服務(wù)器、交換機等在架設(shè)備)、重量、購買時間、價格、責(zé)任人或部門等內(nèi)容,針對不同類型的設(shè)備,還可能有專有的屬性,以便適應(yīng)其專業(yè)特點;
用戶屬性,此屬性用于記錄資產(chǎn)或設(shè)備上用戶管理相關(guān)的信息,包括用戶名、用戶分類、權(quán)限等級、所屬部門等內(nèi)容,此外還可以包括密碼屬性,以便支持安全管理過程中密碼的發(fā)放、回收、定期變更等活動;
硬件配置信息,此屬性用于記錄設(shè)備硬件配置相關(guān)的信息,包括配置的硬盤、網(wǎng)卡、光纖卡等配件;
維保信息,此屬性用于記錄設(shè)備的維保信息,包括服務(wù)提供商、服務(wù)范圍、服務(wù)級別、服務(wù)考核等信息,用于服務(wù)合同管理相關(guān)的活動和功能模塊。
(3)主要功能模塊
基于資產(chǎn)管理所涵蓋的范圍,資產(chǎn)管理需要實現(xiàn)如下的功能:
機房資產(chǎn)管理模塊,用于記錄、查詢、更新運維服務(wù)相關(guān)的軟硬件資產(chǎn)信息,包括各類服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備、光交換設(shè)備等,借助射頻技術(shù)還可以實現(xiàn)對資產(chǎn)設(shè)備的進出機房控制、快速定位、定期盤點等功能;
庫存資產(chǎn)管理模塊,用于記錄和管理庫存資產(chǎn)、設(shè)備、耗材等方面,包括出入庫管理、查詢、盤點等活動;
介質(zhì)管理模塊,用于記錄和管理服務(wù)相關(guān)的介質(zhì)信息,包括光盤、磁帶等介質(zhì)的標(biāo)簽、存放位置、存儲內(nèi)容、物理介質(zhì)快速定位等;
耗材管理模塊,用于記錄和管理服務(wù)相關(guān)的耗材信息和相關(guān)的活動,如網(wǎng)線、光纖等,控制耗材的申領(lǐng)、使用、儲備等活動,還可以實現(xiàn)儲備預(yù)測、消耗分析等功能,以便增強對有關(guān)內(nèi)容的管控;
基礎(chǔ)信息管理模塊,用于管理和維護資產(chǎn)相關(guān)的基礎(chǔ)數(shù)據(jù),以便用戶在使用系統(tǒng)時能方便的選取,提高系統(tǒng)的易用性,降低用戶手寫的工作量和出錯概率;
報表統(tǒng)計模塊,用于統(tǒng)計和匯總資產(chǎn)變動、出入庫信息、耗材使用和消耗情況、介質(zhì)的調(diào)入調(diào)出信息等,方便管理人員對基礎(chǔ)架構(gòu)進行決策和管理;
系統(tǒng)管理模塊,包括用戶管理、權(quán)限控制、部門管理、安全控制等功能,用于控制資產(chǎn)數(shù)據(jù)庫的授權(quán)、維護、引用等活動,便利用戶的使用并控制風(fēng)險;資產(chǎn)的入庫、領(lǐng)用、上線、報廢等申請、審批流程管理。
(4)基于電子標(biāo)識碼的資產(chǎn)管理
常規(guī)的資產(chǎn)管理方式存在諸多的問題:
資產(chǎn)管理人工操作方式記錄(有的采用一維條碼,易污損,識讀困難),人工整理匯總,時間長、效率低,差錯率高;實物信息與管理信息系統(tǒng)信息無法同步,無法實時了解資產(chǎn)當(dāng)前實際所處地點、狀態(tài)(閑置、正常使用、維修、報廢);
難以及時獲得準(zhǔn)確的資產(chǎn)信息(往往通過勞神費力的定期人工盤點的方式更新資產(chǎn)信息)等。
電子標(biāo)識技術(shù)正是解決這一問題的關(guān)鍵,它讀取速度快、無需人為干預(yù)讀取數(shù)據(jù)過程等優(yōu)勢,可以進行快速的資產(chǎn)識別、盤點,實現(xiàn)準(zhǔn)確快速掌握重要固定資產(chǎn)信息。
采用電子標(biāo)識將資產(chǎn)實時監(jiān)測與資產(chǎn)管理有效的整合在一起,從而達到實物信息與系統(tǒng)信息的實時同步一致。從而實現(xiàn)“資產(chǎn)全生命周期自動追蹤管理”,為企業(yè)投資決策、資產(chǎn)合理調(diào)配等提供準(zhǔn)確科學(xué)的參考依據(jù)。達到資產(chǎn)管理中“人、地、時、物同步管理”,有效降低和控制日常管理和生產(chǎn)成本,節(jié)約了每年投入大量人力物力進行資產(chǎn)盤點和無謂調(diào)撥的成本,避免了因各種因素造成的資產(chǎn)流失,提高了企業(yè)管理效益。
2、容量管理模塊
容量是數(shù)據(jù)中心所能提供的能力。容量管理旨在將各類基礎(chǔ)架構(gòu)的處理能力或系統(tǒng)容量進行細(xì)分和量化,根據(jù)業(yè)務(wù)需求進行調(diào)整和配置,從而在滿足主要業(yè)務(wù)需求的前提下實現(xiàn)資源利用合理化、負(fù)荷均衡、確保業(yè)務(wù)目標(biāo)的達成。
基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng)的容量管理主要針對數(shù)據(jù)中心的電力、制冷、空間等基礎(chǔ)設(shè)施的支持能力,即SPC容量管理。
(1)容量管理的構(gòu)成
SPC容量管理主要包括如下幾部分:
性能管理(Performance Management),此活動旨在測量、監(jiān)控和調(diào)整基礎(chǔ)架構(gòu)或組件的性能以期達到最佳性能;
應(yīng)用適配(Application Sizing),此活動旨在給應(yīng)用、設(shè)備分配合適的資源以適應(yīng)當(dāng)前及未來規(guī)劃的業(yè)務(wù)需求;
容量建模(Modeling),此活動旨在識別容量管理所涉及的各因素及對應(yīng)的權(quán)重等信息,并借助信息技術(shù)建立對應(yīng)的容量模型;
負(fù)荷管理(Workload Management),此活動旨在監(jiān)控、測量負(fù)荷的變化以便獲取實時的容量使用情況,以便指導(dǎo)容量規(guī)劃和擴展;
容量規(guī)劃(Capacity Planning),此活動用于創(chuàng)建和規(guī)劃容量計劃,以便適應(yīng)業(yè)務(wù)發(fā)展的需要;
需求管理(Demand Management),此活動旨在通過調(diào)整不同系統(tǒng)的負(fù)荷或分流高峰時的業(yè)務(wù)負(fù)荷以期更合理地利用系統(tǒng)支持能力和有關(guān)資源。
(2)主要功能模塊
基于SPC容量管理所定義的范圍,SPC容量管理需要實現(xiàn)如下的功能模塊:
SPC容量模型管理,包括容量模型的創(chuàng)建、節(jié)點信息維護、參數(shù)設(shè)置等,此外還需要包括監(jiān)控數(shù)據(jù)的動態(tài)關(guān)聯(lián);
資源預(yù)分配管理,包括可用資源的搜索、預(yù)占、取消預(yù)占等功能,在進行資源搜索和預(yù)占時需要綜合考慮SPC容量模型所定義的各要素,出于管理的需要,還需要提供預(yù)占審核、設(shè)備上線、項目信息管理等功能;
報表與統(tǒng)計,包括報表的定制、使用狀況統(tǒng)計、趨勢分析、優(yōu)化建議等功能,主要用于容量狀況分析及容量規(guī)劃;
系統(tǒng)管理功能,包括權(quán)限管理、用戶管理、歷史數(shù)據(jù)管理等,用于支撐容量管理有關(guān)功能的運行。
3、運維管理模塊
運維管理是數(shù)據(jù)中心穩(wěn)定運行的保障,也是數(shù)據(jù)中心日常管理的主要內(nèi)容,它支撐著數(shù)據(jù)中心的故障處理、日常檢修、定期巡檢及人員值班管理等活動。運維管理模塊是運維管理的支撐平臺,為運維管理活動的展開提供了電子化支撐平臺。下面是運維管理模塊的簡單描述和說明。
(1)運維管理的范圍
一般來說,運維管理的范圍涵蓋如下的內(nèi)容:
故障響應(yīng)與處理,包括各類設(shè)備故障的監(jiān)測、響應(yīng)、派單及工單管理等內(nèi)容;
預(yù)防性維護管理,包括定期巡檢管理、移動巡檢管理、日常巡檢等內(nèi)容;
統(tǒng)計分析,包括服務(wù)團隊的運作效率、工單處理情況、工作量等指標(biāo),運行情況的統(tǒng)計分析等;
知識共享和積累,包括故障處理經(jīng)驗沉淀、歸檔、共享,系統(tǒng)基礎(chǔ)資料,應(yīng)急預(yù)案等。
(2)主要功能模塊
根據(jù)運維管理的范圍和主要活動,需要包括如下功能模塊以匹配和支撐對應(yīng)的運維活動:
事件管理(IncidentManagement),用于故障的響應(yīng)、分析、派單及后續(xù)的工單管理等活動,支撐和控制服務(wù)管理中所定義的各級處理團隊的協(xié)作和故障單流轉(zhuǎn),是運維管理所依賴的基本功能;
預(yù)防性維護管理,主要是定期巡檢和移動巡檢,用于設(shè)備的預(yù)防性維護,通過周期性的檢查和維護在設(shè)備出現(xiàn)異常之初就進行修復(fù)和維護,從而防止重大故障的發(fā)生;
知識庫管理(KnowledgeManagement),對于日常故障管理需要提供信息共享平臺以便保存和共享有關(guān)的處理經(jīng)驗,提高協(xié)作的效率;
服務(wù)級別管理(ServiceLevel Management),用于確保和量化整體的服務(wù)交付質(zhì)量符合與客戶簽訂的服務(wù)合同,包括響應(yīng)時間、解決時間、解決率等;
系統(tǒng)管理,包括用戶管理、部門管理、角色管理、權(quán)限管理等內(nèi)容,用于支撐其他功能的實現(xiàn);
統(tǒng)計分析,用于日常工單的統(tǒng)計、分析,以便分析處理效率、響應(yīng)能力、工作量等指標(biāo),便于運維服務(wù)的優(yōu)化和考核。
(3)能耗管理模塊
隨著能源價格上升,數(shù)據(jù)中心能耗成本在運營成本的比重隨之上升,數(shù)據(jù)中心的能耗管理成為熱點話題,“低碳”理念開始為數(shù)據(jù)中心管理者所接受與重視。為了推動數(shù)據(jù)中心節(jié)能減排,工信部《工業(yè)節(jié)能“十二五”規(guī)劃》提出“到2015年,數(shù)據(jù)中心PUE值需下降8%”;發(fā)改委組織的“云計算示范工程”要求數(shù)據(jù)中心PUE降到1.5以下。這都需要做好能耗管理。
1)能效測評
數(shù)據(jù)中心能源使用效率PUE是目前國際國內(nèi)比較一致認(rèn)可的能效參數(shù),定義為數(shù)據(jù)中心總能耗與IT設(shè)備能耗的比。云計算發(fā)展與政策論壇在2012年3月16日發(fā)布的《數(shù)據(jù)中心能效測評指南》中指出,能效測評除了考慮PUE,還需要考慮CLF(制冷負(fù)荷系數(shù))、PLF(供電負(fù)荷系數(shù))和RER(可再生能源利用率)等參數(shù),這樣能更為精細(xì)的反映了數(shù)據(jù)中心的能耗狀況。
能耗管理的關(guān)鍵在能耗狀況的監(jiān)測和分析,通過監(jiān)測獲取真實的、連續(xù)的功耗數(shù)據(jù),然后以這些數(shù)據(jù)為基礎(chǔ),按照科學(xué)的計算方法得到數(shù)據(jù)中心的能效數(shù)據(jù)。
目前,可以參照《數(shù)據(jù)中心能效測評指南》的要求進行能效測評。
2)能耗指標(biāo)的監(jiān)測和計算
為了實現(xiàn)能耗監(jiān)測與分析,監(jiān)控管理系統(tǒng)還應(yīng)包含能耗監(jiān)測與分析系統(tǒng)。該系統(tǒng)通過分布在數(shù)據(jù)中心供配電系統(tǒng)各重要節(jié)點的采集設(shè)備監(jiān)測電量、電流、電壓等參數(shù),對采集的參數(shù)進行分析和統(tǒng)計,以報表的形式展示數(shù)據(jù)中心各能效評估域的能耗評估結(jié)果,供能耗優(yōu)化和調(diào)整時參考。使用該系統(tǒng)不但可以了解數(shù)據(jù)中心能耗狀況,還可以對能耗管理的結(jié)果進行橫向、縱向比較。
上圖為數(shù)據(jù)中心典型的供配電系統(tǒng)示意圖,以此為基礎(chǔ),描述一下進行能耗監(jiān)測時的一些方案。
在正常情況下,數(shù)據(jù)中心的電能由市電提供,因此數(shù)據(jù)中心總耗電的測量點應(yīng)放在市電輸入變壓器之前。當(dāng)市電故障情況下,柴油發(fā)電機產(chǎn)生的電力作為數(shù)據(jù)中心總耗電的測量點。如果是多用途機房樓,數(shù)據(jù)中心總耗電計算中,需要減去辦公等其它耗電的測量值。
嚴(yán)格來說,IT設(shè)備能耗指標(biāo)應(yīng)該在各IT設(shè)備輸入電源處測量耗電量并進行加總,但鑒于IT設(shè)備數(shù)量較多,這一方法將大大增加測量工作量和成本。因此,在實際操作中,我們一般在UPS輸出或者列頭柜配電輸入處進行測量,將測量值之和作為IT設(shè)備耗電指標(biāo)。即:
PUE =(PM1+PM2-PM4)/PM3
在實際測量中,由于測量位置、測量儀表和共享電力等的限制,有時耗電量可能無法直接測量得到或測量數(shù)值不精確,因此必須通過一定的方法進行間接測量和估算;有文獻根據(jù)IT功耗的測量點位置不同將PUE測量級別精確到1、2、3級,考慮到此種區(qū)分對PUE值影響極小,區(qū)分級別地測算PUE必要性不大。
對制冷設(shè)備能耗來說,采用水冷空調(diào)的數(shù)據(jù)中心通常與所在建筑的辦公場所等共用冷水機組,為測量數(shù)據(jù)中心制冷所消耗的電能,可測量或估計數(shù)據(jù)中心和其它負(fù)載之間的熱負(fù)荷比例(根據(jù)水流量、水溫的設(shè)置等),然后根據(jù)比例將冷水機組消耗電能的一部分分配給數(shù)據(jù)中心。計算pPUE(局部PUE,見名詞解釋)的區(qū)域與其它區(qū)域有共享制冷系統(tǒng)時,也可采用這種方法進行間接測量和估算。
對供配電系統(tǒng)來說,在測量供配電系統(tǒng)能耗的過程中,如果指定的測量點難以安裝測試設(shè)備,可根據(jù)相關(guān)設(shè)備的能效因子進行間接推算。例如,在PUE測量中,如果無法在數(shù)據(jù)中心變壓器之前直接測量數(shù)據(jù)中心的總能耗,可根據(jù)變壓器之后的實測值進行推算。
為了防止評價指標(biāo)的計算誤差過大甚至計算錯誤,根據(jù)這些指標(biāo)之間的關(guān)系,可以進行驗證。例如:根據(jù)PUE≈CLF+PLF+1,我們就可以對這三個指標(biāo)的準(zhǔn)確性進行大致的驗證。
能耗指標(biāo)的數(shù)值受各種因素的影響,會隨季節(jié)、節(jié)假日和每天忙閑時段的改變發(fā)生變化,為全面、準(zhǔn)確了解數(shù)據(jù)中心的能效,需對數(shù)據(jù)中心能耗(用電量)進行了持續(xù)、長期的測量和記錄,用于按月、季、年計算PUE.
三、總控中心系統(tǒng)
總控中心系統(tǒng)中包含告警模塊和大屏控制模塊兩個重要模塊。
1、告警模塊
告警模塊在系統(tǒng)或者是監(jiān)控對象出現(xiàn)告警時,能以短信、電話、郵件、聲光等形式,及時通知用戶,使故障得到快速解決。一般監(jiān)控管理系統(tǒng)中會統(tǒng)一集中告警,因此告警模塊一般提供開放式的訪問接口,如SOCKET、Webservice等,以供監(jiān)控管理系統(tǒng)中其它子模塊調(diào)用其告警服務(wù)。告警模塊的告警信息輸出方式,往往提供(包含且不僅限于)短信、電話、郵件、聲光等方式,還可以和企業(yè)的短信網(wǎng)關(guān)進行對接,通過統(tǒng)一信息平臺發(fā)布告警信息。
告警模塊作為信息交互的終端,其交互信息的準(zhǔn)確性很重要。如果通過告警模塊發(fā)出的告警信息過多,往往會將真正重要的信息淹沒,導(dǎo)致重大事故產(chǎn)生。因此,輸入到告警模塊中的信息必須經(jīng)過有效性過濾,也就是說在告警信息發(fā)出之前必須經(jīng)過復(fù)雜事件分析模塊的分析處理。復(fù)雜事件分析模塊的有效性,決定了告警模塊信息交互的有效性。
告警模塊作為告警有效信息的重要輸出載體,保證信息的目標(biāo)可達性也至關(guān)重要。在告警模塊運行過程中,程序的崩潰、網(wǎng)絡(luò)故障、機器宕機等都隨時導(dǎo)致告警信息的丟失,貽誤故障處理的有效時機。因此,告警模塊應(yīng)具備容錯機制,包括重發(fā)、斷點恢復(fù)續(xù)傳等。根據(jù)數(shù)據(jù)中心等級建設(shè)的要求,告警模塊也需要進行對應(yīng)的冗余設(shè)計。同時,由于告警方式的不可靠性,如電話有可能無法接通,郵箱服務(wù)器可能發(fā)生故障等,為保證信息的送達,一般還需要在告警模塊中設(shè)計告警升級功能,如根據(jù)服務(wù)等級,對于高等級的事件,超時未處理的事件應(yīng)進行各種條件的告警升級處理。升級處理,包括告警對象的升級處理,如值班人員A未撥通電話,重試失敗后升級到值班人員A的主管;還包括告警方式的升級,從總控中心現(xiàn)場的聲光告警,升級到短信、電話報警。復(fù)雜情況,還包括兩種升級方式的組合。
2、大屏控制模塊
總控中心是中大型數(shù)據(jù)中心運維團隊進行運行監(jiān)控值守的場所,運行維護值守人員主要依托監(jiān)控管理系統(tǒng)的總控中心大屏展示的信息來了解、獲知、分析龐大、復(fù)雜的系統(tǒng)和設(shè)備的運行情況。由于監(jiān)控管理對象的復(fù)雜性,很多情況下,值守人員需要從不同維度同時了解、分析數(shù)據(jù)中心運行情況,這就需要從不同維度展示運行情況的多個顯示屏幕。顯然在一套大屏上從多個維度集中展示的監(jiān)控、故障相關(guān)信息越豐富、越清晰明了,越有助于運維人員及時發(fā)現(xiàn)和快速解決問題。因此,在數(shù)據(jù)中心監(jiān)控管理中心(或ECC)都配備有多個屏幕拼接組成的大屏顯示系統(tǒng)。
大屏幕展示模塊在數(shù)據(jù)中心的應(yīng)用一般有兩種方式:
一種是采用專業(yè)的智能屏控系統(tǒng),一種是采用簡單的液晶屏組合系統(tǒng)。
(1)智能屏控系統(tǒng)
智能屏控系統(tǒng)也稱多屏拼接處理器,是大屏顯示系統(tǒng)的核心功能單元。大屏幕拼接墻系統(tǒng)一般包含屏幕控制軟件和拼接墻處理器,來完成大屏幕的分屏、合屏等屏顯功能。
智能屏控系統(tǒng)采用超大規(guī)模FPGA的純硬件架構(gòu),以高帶寬網(wǎng)絡(luò)交換技術(shù)為手段,以基于像素的圖像縮放引擎為基礎(chǔ),采用分布式的模塊化設(shè)計,來實現(xiàn)大屏幕拼接墻靈活,方便,高性能的顯示控制。
智能屏控系統(tǒng)支持即插即配、海量信號管理、支持DVI、VGA、HDMI、Video等信號源接入,支持多顯示墻、多屏信號共享、多屏聯(lián)動,支持自由拼接、單獨開窗拼接、信號任意拖拽,支持圖像任意縮放,跨屏,漫游,疊加,超大分辨率底圖、超高分辨率動態(tài)圖像的大屏顯示,大屏回顯錄播、數(shù)字標(biāo)牌上屏,支持多組顯示方案預(yù)設(shè),支持多用戶,操控靈活等。
對于總控中心的大屏顯示系統(tǒng)僅有大屏控制功能是不夠的,為了使各屏顯示的內(nèi)容具有相關(guān)性、互補性與互動性,還需要監(jiān)控管理軟件本身的顯示頁面支持多窗口顯示與顯示聯(lián)動控制。
智能屏控系統(tǒng)一般使用在中大型數(shù)據(jù)中心的總控中心。
(2)簡易多屏拼接系統(tǒng)
對于中小型的數(shù)據(jù)中心的監(jiān)控室,以經(jīng)濟實用為原則,不一定需要智能屏控系統(tǒng)。此時可通過多屏輸出顯卡和幾個顯示器完成一個小型的拼接墻系統(tǒng)。由于多屏顯卡的輸出端子有限,因此該方案一般支持的視窗是有限的。使用Windows管理液晶屏組合展示時,可以將多個液晶顯示器映射成一個虛擬大液晶顯示器,通過分屏展示模塊完成業(yè)務(wù)視圖的顯示分割、布局;也可以將多個液晶顯示器映射成獨立顯示單元,每個液晶顯示器顯示獨立的業(yè)務(wù)視圖,此時和大屏幕拼接墻系統(tǒng)一樣,僅要求分屏展示軟件模塊能提供對應(yīng)的多個業(yè)務(wù)視圖窗口。
(3)大屏控制模塊的應(yīng)用
圖4 大屏顯示系統(tǒng)應(yīng)用示意圖
大屏展示模塊根據(jù)業(yè)務(wù)需要,可以配置出多種不同應(yīng)用場景的展示組合。
監(jiān)控信息展示
如對于全局的監(jiān)控視圖,如全國聯(lián)網(wǎng)的數(shù)據(jù)中心網(wǎng)點監(jiān)控狀態(tài)監(jiān)控視圖,可以設(shè)計成主畫面,使用4個顯示單元組合顯示;其他的監(jiān)控管理子業(yè)務(wù)系統(tǒng)使用1個顯示單元顯示,設(shè)計成從畫面。這樣對整個監(jiān)控管理系統(tǒng)的全局到局部都能進行實時監(jiān)控。每個監(jiān)控管理子業(yè)務(wù)系統(tǒng)還可以設(shè)計頁面輪詢策略,輪流顯示每個關(guān)鍵監(jiān)控指標(biāo)。一旦某個監(jiān)控畫面發(fā)生報警,則停留在該畫面,并提示當(dāng)前的報警信息。
同時,監(jiān)控管理系統(tǒng)的主畫面與從畫面之間,從畫面和從畫面之間還可以設(shè)置聯(lián)動,如對主畫面中的某個業(yè)務(wù)子系統(tǒng)進行操作時,該業(yè)務(wù)子系統(tǒng)顯示單元便切換到該業(yè)務(wù)子系統(tǒng)指標(biāo)監(jiān)控畫面。也可以利用屏控模塊的預(yù)設(shè)功能,設(shè)定多種監(jiān)控顯示模版,供使用者根據(jù)使用場景靈活調(diào)用。
告警信息展示與分析
當(dāng)某個故障發(fā)生需要進行分析、會診時,可用一個屏幕3D展示該設(shè)備的物理位置信息(有必要時再用一個屏幕展示其視頻信息,實現(xiàn)虛擬與現(xiàn)實結(jié)合展示),一個屏幕用2D展示其邏輯關(guān)系信息(如拓?fù)潢P(guān)系),一個屏幕展示其故障詳細(xì)信息,一個屏幕展示相關(guān)知識庫信息或應(yīng)急預(yù)案信息等。通過這種故障信息的關(guān)聯(lián)展示,有助于快速分析定位故障根源,有助于組織運維力量準(zhǔn)確處理,提高數(shù)據(jù)中心可用性。
管理信息展示與分析
當(dāng)需要橫向比較各機房模塊的能耗,可以把各機房單元的PUE、CLF、PLF分別在不同屏幕上顯示出來;當(dāng)需要全域了解所有機房SPC容量時,可以把每個機房的SPC分別在不同屏幕上顯示出來;但需要做運行分析時,可以把月度、季度、年度的運行情況、同比、環(huán)比情況、匯總情況分別在不同的屏幕上顯示出來等。這些常見顯示場景可以用預(yù)設(shè)功能固定下來以備需要時調(diào)用,有利于提高工作效率。
四、基礎(chǔ)服務(wù)模塊
1、數(shù)據(jù)庫模塊
數(shù)據(jù)庫模塊根據(jù)存儲的業(yè)務(wù)數(shù)據(jù)及實現(xiàn)技術(shù)的不同,主要分為三類數(shù)據(jù)庫模塊:實時數(shù)據(jù)庫模塊、歷史數(shù)據(jù)庫模塊和配置管理數(shù)據(jù)庫模塊。
(1)實時數(shù)據(jù)庫模塊
監(jiān)控管理系統(tǒng)根據(jù)對數(shù)據(jù)實時性業(yè)務(wù)要求的不同,會將業(yè)務(wù)數(shù)據(jù)分離到兩類不同的數(shù)據(jù)庫中,一個是實時數(shù)據(jù)庫,一個是歷史數(shù)據(jù)庫。
實時數(shù)據(jù)庫(RTDB,Realtime Database)是數(shù)據(jù)庫系統(tǒng)發(fā)展的一個分支,是數(shù)據(jù)庫技術(shù)結(jié)合實時處理技術(shù)產(chǎn)生的。實時數(shù)據(jù)庫專用于處理帶有時間戳的數(shù)據(jù),其特點是產(chǎn)生頻率快,并發(fā)量大,數(shù)據(jù)和時間有緊密關(guān)聯(lián)關(guān)系。實時數(shù)據(jù)采集產(chǎn)生大并發(fā)和持續(xù)的數(shù)據(jù)流,傳統(tǒng)數(shù)據(jù)庫并不適合流式數(shù)據(jù)處理,需要精心考慮數(shù)據(jù)存儲策略。實時數(shù)據(jù)庫在監(jiān)控系統(tǒng)中作為高速數(shù)據(jù)訪問的緩存設(shè)施,提供實時測點訪問、實時事件訪問等服務(wù)。
實時數(shù)據(jù)庫最大的特點就是及時性。實時數(shù)據(jù)庫要保證采樣的數(shù)據(jù)能及時的更新到實時數(shù)據(jù)庫中,因此實時數(shù)據(jù)庫的訪問延遲時間不應(yīng)大于采樣頻率。同時,實時數(shù)據(jù)庫也通過一些特定機制保證實時數(shù)據(jù)庫中新鮮的數(shù)據(jù)能及時被數(shù)據(jù)使用者及時獲取。
實時數(shù)據(jù)庫另外的一個特點是存儲信息多樣性。由于實時數(shù)據(jù)庫數(shù)據(jù)處理的高速性,越來越多的對性能要較高要求的應(yīng)用,都開始將實時數(shù)據(jù)庫作為自己的應(yīng)用緩存,以加快處理速度。
隨著數(shù)據(jù)中心建設(shè)規(guī)模越來越龐大,要求管理的實時數(shù)據(jù)規(guī)模也越來越龐大。因此對實時數(shù)據(jù)庫模塊的處理性能,承載容量的需求也越來越高。
(2)歷史數(shù)據(jù)庫模塊
實時數(shù)據(jù)庫模塊為實時數(shù)據(jù)計算提供數(shù)據(jù)來源,歷史數(shù)據(jù)庫模塊則為后期的數(shù)據(jù)分析、統(tǒng)計、挖掘提供數(shù)據(jù)來源。
歷史數(shù)據(jù)庫是一種支持在線事務(wù)處理和數(shù)據(jù)挖掘的中間數(shù)據(jù)庫,它負(fù)責(zé)將實時數(shù)據(jù)庫中的實時數(shù)據(jù)流轉(zhuǎn)儲到中間數(shù)據(jù)庫中,供日后分析處理。歷史數(shù)據(jù)庫應(yīng)具備較好的數(shù)據(jù)容錯性,便于數(shù)據(jù)備份和恢復(fù);還應(yīng)具備良好的數(shù)據(jù)訪問接口,便于在此之上進行數(shù)據(jù)分析。
由于業(yè)務(wù)的發(fā)展和多變,歷史數(shù)據(jù)庫模塊首先需要解決業(yè)務(wù)的變化的適應(yīng)性。因此,歷史數(shù)據(jù)庫一般支持業(yè)務(wù)規(guī)則描述,通過預(yù)先定義的業(yè)務(wù)規(guī)則,抽取、轉(zhuǎn)換原始數(shù)據(jù),得到期望的業(yè)務(wù)數(shù)據(jù)。業(yè)務(wù)的變化,只需要調(diào)整對應(yīng)的業(yè)務(wù)規(guī)則描述即可迅速的適應(yīng)新業(yè)務(wù)。
歷史數(shù)據(jù)庫遇到的另一個挑戰(zhàn)是大數(shù)據(jù)量的存儲和檢索。一個超大型數(shù)據(jù)中心的監(jiān)控測點數(shù)以幾十萬計,如果不進行任何處理,要對這些測點數(shù)據(jù)進行存儲,數(shù)據(jù)量每天以GB級別的增長。因此,存儲前的數(shù)據(jù)壓縮處理和數(shù)據(jù)庫的合理設(shè)計,對大數(shù)據(jù)的存儲和檢索性能至關(guān)重要。
(3)配置管理數(shù)據(jù)庫模塊
配置管理數(shù)據(jù)庫(CMDB)不是關(guān)系型數(shù)據(jù)庫,也不是企業(yè)的資產(chǎn)庫。配置管理數(shù)據(jù)庫存放所有的軟件和硬件(不僅僅是計算機軟硬件),這些組件我們稱之為配置項(CI)。配置管理數(shù)據(jù)庫存放配置項和配置項之間的關(guān)系(Relation)。配置管理數(shù)據(jù)庫是監(jiān)控管理系統(tǒng)業(yè)務(wù)服務(wù)管理策略的核心,是配置信息的唯一來源。它保證信息的唯一性,準(zhǔn)確性。
配置管理數(shù)據(jù)庫模塊是監(jiān)控管理系統(tǒng)的靈魂,這個模型的建設(shè)的好壞,決定著監(jiān)控管理系統(tǒng)的管理效率和有效性。
2、雙機熱備模塊
根據(jù)GB 50174-2008對機房可用性等級的要求,對應(yīng)高等級的數(shù)據(jù)中心監(jiān)控管理系統(tǒng)應(yīng)匹配冗余設(shè)計。雙機熱備模塊則是監(jiān)控管理系統(tǒng)的基礎(chǔ)服務(wù)系統(tǒng)中實現(xiàn)監(jiān)控管理系統(tǒng)冗余設(shè)計的重要公共模塊。
(1)雙機熱備的分類及定義
雙機熱備使用兩臺服務(wù)器,互相備份,共同執(zhí)行同一服務(wù)。當(dāng)一臺服務(wù)器出現(xiàn)故障時,可以由另一臺服務(wù)器承擔(dān)服務(wù)任務(wù),從而在不需要人工干預(yù)的情況下,自動保證系統(tǒng)能持續(xù)提供服務(wù)。雙機熱備由備用的服務(wù)器解決了在主服務(wù)器故障時服務(wù)不中斷的問題。
從工作方式上來劃分,雙機熱備有兩種:active/standby和active/active. active/standby也叫主備方式,當(dāng)主機產(chǎn)生故障后,備機及時接管主機的服務(wù)。active/standby方式永遠(yuǎn)只有一臺服務(wù)器處于激活工作狀態(tài),另一臺服務(wù)處于等待非工作狀態(tài)。
active/active工作模式,主、備機都同時工作,提供相同的對外服務(wù)。客戶端訪問其中的任意一臺機器都可完成需要的業(yè)務(wù),既可以實現(xiàn)簡單的負(fù)載均衡,也可以將故障的切換時間降到最低。
(2)雙機熱備的選擇
選擇雙機熱備模塊的工作方式,主要取決于運行在雙機熱備模塊之上的應(yīng)用服務(wù)的工作特性。如果應(yīng)用服務(wù)允許同時運行工作,則active/active是個不錯的選擇。如果應(yīng)用服務(wù)在同一時刻,只允許一個實例運行工作,則只能選擇active/standby模式了。