品高云操作系統 V8.0 已于 2018 年 1 月正式發布,本次版本升級帶來了云數據湖、SDN v4.0、應用交付流水線、彈性漏掃服務、全局業務標簽、彈性文件系統、加速設備即服務、智能化體檢、Power 架構服務化以及微軟 Azure 公有云納管等多個頗具亮點的新功能特性。聯系客服小表妹(VX:pingaoyunzzm)了解更多。
本文將通過對品高云平臺進行自動巡檢及其準確性的驗證,深度分析平臺智能體檢功能在實際場景中的應用。后續我們還將邀請產品專家逐一對品高云操作系統 V8.0 中的其他功能進行詳解,敬請關注。
一、智能化已成為釋放 IT 運維人員能力的重要技術手段
在云計算數據中心場景下,資源與信息更加集中。這種“集中”不是集中到一臺機器,而是集中到由 100 臺、1000 臺或更多機器組成的集群上。云計算技術能為用戶提供極高的計算能力及海量存儲空間,與此同時,也帶來了運維方式的巨大變化。隨著服務規模的不斷擴展,人工進行系統管理已經成為不可能完成的任務,自動化運維將是不可回避的選擇。同時,企業數字化轉型所需要的 IT 敏捷性和速度也超越了以往傳統的 IT 運維實踐。
IT運維的重要工作內容之一就是定期巡檢。無論是室內的數據中心機房,還是新型的云數據中心,定期的巡檢管理是必不可少的。傳統的巡檢系統,多數巡檢為半夜進行非常辛苦,運維人員直接通過手工記錄檢查結果,該種方式需要工作量很大、效率低、檢查結果不易保留及查詢等,另一方面由于是人工操作,就會有惰性和不規范情況出現,容易造成管理人員走馬觀花。隨著云計算技術在各行各業的工程落地實踐,傳統的巡檢方式已經很難滿足用戶對大規?;A資源的運維要求,需要通過一種全新的自動化技術來擺脫傳統的紙張記錄方式,讓運維人員巡檢更加科學,是當前企業急需解決的難題。
目前,應用于云平臺的智能化巡檢服務在行業內較為少見,一些產品大多通過第三方的巡檢工具,巡檢內容也僅局限于虛擬機層面,更不能直接輸出云平臺巡檢結果的分析整理以及下一步的運維管理建議,還只是停留在對可觀存在的數據信息的收集整理階段。對于 IT 運維人員而言,還無法做到協助對主觀意識層面的知識歸納與創新的幫助,如果,智能化的云平臺巡檢服務能夠實現全面的內容巡檢以及對巡檢結果的分析整理,并可輸出標準化的巡檢報告,那將會釋放運維人員的機械化工作壓力,更多的時間投入到知識沉淀和創新性得工作中去。
圖 1 云平臺運維工作體系
二、品高云平臺智能體檢服務
品高云平臺智能體檢服務,解決了運維人員手動巡檢云平臺的諸多問題,自動巡檢完畢后即可導出巡檢報告,運維人員可詳細查看巡檢總結、存在問題以及優化意見,極大簡化運維人員巡檢流程,進一步提高了運維巡檢的工作效率,釋放運維人員的機械化工作壓力。
圖 2 平臺智能體檢服務示意圖
品高云平臺智能體檢服務的巡檢內容包括了云服務器性能情況、云存儲容量以及可用性、云控制器可用性、數據庫使用情況、云服務可用性、整體資源使用情況、資源使用 TOP 監控、資源可用性。
品高云平臺智能體檢服務除了對云平臺的整體運行情況進行檢查外,輸出的標準化巡檢報告中還為運維人員提供了云平臺的優化建議與問題改進建議。
三、特色能力
針對常見問題給出整改建議,后續可以按需擴容整改建議庫 ;
自動生成 Word 版本巡檢報告,目錄中直接標記問題所在,可通過點擊跳轉具體問題章節;
針對云的物理資源(服務器、存儲、SDN 網絡)、云控制器與數據庫、虛擬資源、各種云服務等統一進行健康檢查;
四、應用場景
定期巡檢云平臺整體情況,包括計算/存儲/網絡/高級服務/數據庫/平臺狀態等。
統計分析云平臺資源使用情況,為升級擴容提供參考。
五、功能實踐——自動巡檢品高云平臺
本次功能實踐是通過智能體檢服務對品高云平臺進行自動巡檢,輸出標準化的巡檢報告,并針對某一巡檢項與云平臺內的實際情況進行對比,以確認智能化巡檢服務的準確性。
詳細操作步驟如下:
(1)打開平臺智能巡檢服務,填寫品高云巡檢平臺信息,包括用戶名稱,平臺版本,巡檢人,平臺賬號,密碼,平臺地址,存儲地址等。
圖 3 填寫巡檢平臺信息
(2)點擊生成報表開始巡檢云平臺。
圖 4 巡檢過程截圖
(3)巡檢完成后即可導出完整的云平臺巡檢報告。
圖 5 標準化巡檢報告封面
自動輸出的巡檢報告包括了服務器狀態、云平臺數據庫運行狀態、云存儲服務狀態、云平臺使用狀態、自助服務門戶狀態、實例狀態等內容,同時,還針對巡檢結果與存在問題進行了數據分析,為云平臺運維人員提供了一定的管理建議。
(4)針對實例狀態中的內存監控情況,查看巡檢報告中的巡檢內容是否與云平臺中的實例監控一致。
首先,打開云平臺巡檢報告,在實例狀態監控章節查看實例內存監控情況,發現云平臺共有以下 1 臺虛擬機內存占用過高,實例 IP 為 i-4B71D908。
圖 6 巡檢報告中實例內存巡檢結果截圖
進入云平臺(地址 10.202.83.1:8663),通過【監控與報表】→【監控 TOP】可以查看到云平臺中實例內容占用率最高的實例也為 i-4B71D908,與巡檢報告輸出的數據一致,這說明平臺智能體檢服務的巡檢結果非常準確。
圖 7 云平臺監控監控 TOP 截圖