云計算運維管理的要點云計算在運維管理中其所涵蓋的范圍非常廣泛,其中主要包括了對環境管理、網絡管理、軟件管理、設備管理、日常操作管理、用戶密碼管理以及員工管理等多個方面。要良好實現以上的管理目標,則應著重從云計算運維管理中的運行監控、安全性管理和自動化處理這三個要點出發。
運行監控
云計算的運維管理應從數據中心的日常監控人手,對日常維護管理、事件管理、變更管理以及應急預案管理等進行全方位的日常監控,以提前發現問題并消除隱患。通過對云計算良好的運行監控,從而實現對各個系統服務的統一管理,以及對各服務操作系統應用程序信息的統一收集,并實現對各層面信息的綜合分析、歸納和總結。而且通過有效的運行監控,在系統出現問題時能及時的向系統管理員預警,從而提前解決問題,有效避免了因系統故障而導致企業蒙受經濟和信譽上的損失。
IT規范化
主要是指通過對企業IT的規范化,從而有效實現對企業IT資產的管理,包括了對企業重要文件資料的跟蹤與審計、對可能出現泄密或病毒蔓延的介質與設備進行有效控制、對客戶端安全分級管理、恢復性操作以及非法軟件的禁用等等。通過實現IT規范化,有效解決了因云服務所引發的安全問題,并且強化了服務中運營管理與安全技術保障,增強了企業和用戶對使用云服務的信心。
自動化處理
隨著當前IT建設的不斷深入,以及云計算能力和規模的擴大,云計算運維管理的難度與復雜度也日益增加,如果只是依靠人工的運維管理將無法滿足當前企業的發展需求。這些新特性都對IT管理的自動化能力提出了更高的要求,企業需要更高程度自動化處理來以此實現運維管理的專業化、流程化與標準化。自動化管理已然成為了當前云計算運維管理的一個必然發展趨勢。
為促進當前云計算運維管理的優化與改進,應從打造一體化的的運維管理模式,并將業務導向放在首位,從而有效實現完善、成熟的IT運維服務體系的構建。
一體化的管理模式
一體化是指云計算的數據中心運維管理,是數據中心生命周期中最后一個也是歷時最長的一個階段,從前期應用架構設計、軟硬件資源配置評估、應用服務性能瓶頸評估到安全防護和系統優化等工作,都需運維人員全程參與。因此在對云計算運維管理的改進中,應從日常監控、周期巡檢、服務受理、故障處理、平臺維護、配置管理、安全管理等方面著手,利用自動化運維工具,實現對物理資源、虛擬資源的統一管理,提供資源管理、統計、監控、調度、服務管控等端到端的綜合管理能力,從而實現對云數據中心統一、便捷、高效、智能的一體化運維管理。
將業務導向放在首位
運行維護服務能力的四個關鍵要素分別是:人員、資源、技術和過程。每個要素通過關鍵指標反映運行維護服務的條件和能力。將業務導向放在首位,就是對人員、資源、技術和過程這四個關鍵要素的提升。從而有效實現云計算運維管理的改進。首先,應通過現代化與自動化的運維工具完成系統預備、配置管理以及監控報警等功能,降低故障發生率,提升故障發生后的響應處理效率,實現企業業務的快速恢復;其次,應做好在運維管理中新業務的快速部署、系統容量的平滑擴容以及資源分配等各個方面的業務項目,從而保證服務達到相應的等級標準,并能根據業務目標形成IrI‘服務的管理目標;最后,還應當通過改進運行維護服務能力與管理過程中的不足,以持續提升運行維護服務能力。
理清云計算數據中心的運維對象
數據中心的運維管理指的是與數據中心信息服務相關的管理工作的總稱。云計算數據中心運維對象一般可分成5大類:
①機房環境基礎設施
②數據中心所應用的各種設備
③系統與數據
④管理工具
⑤人員管理
定義各運維對象的運維內容
云計算數據中心資源管理所涵蓋的范圍很廣,包括環境管理、網絡管理、設備管理、軟件管理、存儲介質管理、防病毒管理、應用管理、日常操作管理、用戶密碼管理和員工管理等。這就需要對每一個管理對象的日常維護工作內容有一個明確的定義,定義操作內容、維護頻度、對應的責任人,要做到有章可循,責任人可追蹤。實現對整個系統全生命周期地追蹤管理。
信息化的運維管理平臺系統和IT服務管理系統
云計算數據中心的運維管理應從數據中心的日常監控入手,事件管理、變更管理、應急預案管理和日常維護管理等方面全方位地進行數據中心的日常監控。實現提前發現問題、消除隱患,首先要有完整的、全方位實時有效的監控系統,并著重監控數據的記錄和技術分析。
數據中心的業務可以概括為:通過運行系統來向客戶提供服務。沒有信息系統的支撐來運行IT系統就如超市里仍然采用手工結賬一樣不能讓顧客滿意。信息化的數據中心運維管理平臺系統包括如下方面:
①機房環境基礎設施監控管理系統;
②IT系統監控管理系統;
③IT服務管理系統。
定制化管理
靈活性、個性化是云服務的顯著特征,用戶對應用系統有著千差萬別的個性化需求,云服務提供商在保證共性需求的基礎上,還要滿足用戶個性化的定制需求,向用戶提供靈活和個性化配置的云服務系統。云服務提供商要提供按需變化的服務,就要有反應敏捷的人員、流程和工具,來適應業務變化的需要。云服務下的運維需要更多的靈活性和可伸縮性,可以根據客戶與合作伙伴的需要,快速調整資源、服務和基礎設施。
自動化管理
IT服務根據負載變化的情況可以自動調整所需的資源,以求在及時響應和節約成本上取得平衡。同時,還考慮到計算能力和規模會越來越大,人工管理資源也會越來越復雜。這些新特性對IT管理自動化能力提出了更高的要求。企業往往希望在不失靈活性的前提下,可以得到更高程度的自動化。為此,云計算數據中心需要部署自動化管理平臺,集中管理虛擬化和云計算平臺,并提供自定義規則,以定制功能的自動化解決方案,用戶通過使用事件觸發、數據監控觸發等方式來自動化管理,不但節約了人力,同時也提高了響應速度。
安全性管理
由于提供服務的系統和數據有可能被轉移到用戶可掌控的范圍之外,云服務的數據安全、隱私保護就成為了用戶對云服務最為擔憂的方面。云服務引發的安全問題除了包括傳統網絡與信息安全問題(如系統防護、數據加密、用戶訪問控制、DoS攻擊等)問題外,還包括由集中服務模式所引發的安全問題以及云計算技術引入的安全問題。例如防虛機隔離、多租戶數據隔離、殘余數據擦除以及多SaaS(SoftwareasaService)應用統一身份認證等問題。要解決云服務引發的安全問題,云服務提供商需要提升用戶安全認知、強化服務運營管理和加強安全技術保障等。需要加強用戶對不同重要性數據遷移的認知,并在服務合同中強化用戶自身的服務帳號保密意識,這可以提升用戶對安全的認知。在服務管理方面,要嚴格設定關鍵系統的分級分權管理權限并輔之以相應規章制度,同時加強對合作供應商的資格審查與保密教育。加強安全技術保障,以充分利用網絡安全、數據加密、身份認證等技術,消除用戶對云服務使用的安全擔憂,增強用戶使用云服務的信心。
流程管理
流程是數據中心運維管理質量的保證。作為客戶服務的物理載體,數據中心存在的目的就是要保證服務可以按質、按量地提供符合用戶要求的服務。為確保最終提供給用戶的服務是符合服務合同的要求,數據中心需要把現在的管理工作抽象成不同的管理流程,并把流程之間的關系、流程的角色、流程的觸發點和流程的輸入與輸出等進行詳細定義。通過這種流程的建立,一方面可以使數據中心的人員能夠對工作有一個統一的認識,更重要的是通過這些服務工作的流程化,使得整個服務提供過程可被監控和管理,以形成真正意義上的“IT”。服務數據中心建立的管理流程,除應滿足數據中心自身特點外,還應能兼顧用戶、管理者和服務商與審計機構的需求。由于每個數據中心的實際運維情況與管理目標存在差異,數據中心需要建立的流程也會有所不同。
應急預案管理
應急預案是為確保發生故障事件后,盡快消除緊急事件的不良影響,恢復業務的持續運營而制定的應急處理措施。應急預案的注意事項:
①根據業務影響分析的結果及故障場景的特點編寫應急預案,以確保當緊急事件發生后可維持業務繼續運作,在重要業務流程中斷或發生故障后,在規定時間內,要及時恢復業務運作。
②應急預案除包括特定場景出現后,各部門和第三方的責任與職責外,還應評估復原可接受的總時間。
③應急預案必須經過演練,使相關責任人熟悉應急預案的內容。應急預案應是一個閉環管理系統。從預案的創建、演練、評估到修訂應是一個全過程的管理,絕不能為了應付某個演練工作,制定后就束之高閣了。而是應該在實際演練和問題發生時不斷地總結和完善。
只有運維管理好一個數據中心,才能充分發揮數據中心的作用,使之能更好地為云計算提供強大的支持能力。通過有效實施云計算數據中心運維管理,減少人員工作量的同時,還要提高運維人員的工作素質和效率,保障業務人員的工作效率,提高業務系統運行狀況,進而提高企業整體的管理效益,同時也提高了用戶的滿意度,才能實現云計算數據中心的價值最大化。