企業(yè)如果希望監(jiān)控云應(yīng)用,需要收集有關(guān)性能、成本和安全性的指標(biāo)。企業(yè)IT團(tuán)隊及其選擇實施的工具需要協(xié)調(diào)工作。
云計算應(yīng)用程序監(jiān)控是一項多學(xué)科的工作。為了優(yōu)化基礎(chǔ)設(shè)施,管理人員和開發(fā)人員必須實施幾種不同類型的云應(yīng)用程序監(jiān)控措施,其中包括檢查性能、開銷和安全性。更重要的是,其中一些監(jiān)控學(xué)科包含子學(xué)科。
為了使問題更加復(fù)雜,需要以特定的方式監(jiān)控不同類型的云計算應(yīng)用程序或服務(wù)。例如,監(jiān)視無服務(wù)器功能需要一種不同于監(jiān)視虛擬服務(wù)器上運(yùn)行的應(yīng)用程序的方法。
為了制定一個云計算應(yīng)用程序監(jiān)控策略,需要探討主要的監(jiān)控類型,它們?nèi)绾螒?yīng)用于各種類型的應(yīng)用程序和云計算服務(wù),以及哪些本地工具和第三方工具可用。
云計算監(jiān)控的關(guān)鍵類型
云計算監(jiān)控可以分為三個重要但重疊的類別:
•性能監(jiān)控。這種類型的監(jiān)控旨在確保云計算應(yīng)用程序可用,并且它們可以充分運(yùn)行。其目的是識別和診斷可能削弱性能的各種類型的問題,范圍從基礎(chǔ)設(shè)施問題(例如缺乏網(wǎng)絡(luò)帶寬)到配置問題(例如無效的負(fù)載平衡設(shè)置)到應(yīng)用程序錯誤。
•成本監(jiān)控。在云中,資源的低效使用會迅速產(chǎn)生大量成本,因此監(jiān)控成本尤為關(guān)鍵。因此,云計算成本監(jiān)控已成為其自身的一門學(xué)科,其中包含各種專用于成本優(yōu)化的工具和策略。
•安全監(jiān)控。安全監(jiān)控在任何情況下都很重要,但在云中執(zhí)行可能尤其具有挑戰(zhàn)性。這不僅是因為云計算環(huán)境通常由多個重疊的基礎(chǔ)設(shè)施和軟件層組成,而且因為云計算在公共和專用網(wǎng)絡(luò)之間沒有提供硬邊界。
這些類別的云計算監(jiān)控以各種方式重疊。例如,安全監(jiān)控包括識別分布式拒絕服務(wù)(DDoS)攻擊,這也會威脅到應(yīng)用程序的可用性和性能。它們還涵蓋了優(yōu)化云計算應(yīng)用程序性能、成本和安全性所必需的其他幾種類型的監(jiān)視,例如數(shù)據(jù)庫監(jiān)視和日志監(jiān)視。因此,云計算監(jiān)控的類型應(yīng)該被視為云計算應(yīng)用程序監(jiān)控的重疊學(xué)科,而不是整齊明確的監(jiān)控類型。
同樣,值得注意的是,盡管上述三種監(jiān)控類型的主要責(zé)任通常都落在不同類型的IT員工身上,但最好的云計算監(jiān)控策略使所有類型的監(jiān)控都成為一項集體努力。例如,安全監(jiān)控可能是安全專業(yè)人員的主要職責(zé),但其他IT管理員和開發(fā)人員也需要參與幫助識別和響應(yīng)安全問題,以便快速解決這些問題。
同樣,成本監(jiān)控應(yīng)該是IT組織內(nèi)每個人的關(guān)注點(diǎn),因為以任何方式監(jiān)控云計算的任何人都可以幫助識別和解決云中的浪費(fèi)或效率低下的流程。
構(gòu)建云計算監(jiān)控策略
在許多情況下,本地工具不足以進(jìn)行適當(dāng)?shù)脑朴嬎銘?yīng)用程序監(jiān)控。
要執(zhí)行每種類型的監(jiān)視,IT團(tuán)隊?wèi)?yīng)審查特定的指標(biāo)和信息。這不是一個全面的列表,但它提供了一些團(tuán)隊?wèi)?yīng)該尋找的真實示例。
重要的是,這些指標(biāo)還強(qiáng)調(diào)了監(jiān)控策略根據(jù)團(tuán)隊部署的特定云計算工作負(fù)載而變化的方式。例如,當(dāng)運(yùn)行基于云的虛擬機(jī)時,企業(yè)需要查找的信息類型與監(jiān)視無服務(wù)器應(yīng)用程序所需的信息類型非常不同。
各種指標(biāo)和信息來源有助于績效監(jiān)控,其中包括以下內(nèi)容:
•資源可用性。企業(yè)部署并運(yùn)行的云服務(wù)或?qū)嵗鞘裁?如果虛擬機(jī)意外關(guān)閉,或者數(shù)據(jù)庫不再響應(yīng)請求,這些可能表明云計算應(yīng)用程序性能問題迫在眉睫。
•響應(yīng)時間。云計算資源響應(yīng)請求需要多長時間?響應(yīng)緩慢可能是因為資源本身缺乏快速響應(yīng)的計算能力或內(nèi)存,或者網(wǎng)絡(luò)帶寬不足可能是根本問題。
•應(yīng)用程序錯誤。企業(yè)的云應(yīng)用程序產(chǎn)生了多少錯誤?這些錯誤的根源是什么?根據(jù)運(yùn)行的應(yīng)用程序類型以及這些應(yīng)用程序記錄錯誤的方式,跟蹤此信息的能力會有所不同。例如,無服務(wù)器功能生成的日志數(shù)據(jù)相對較少,而在虛擬機(jī)中運(yùn)行的傳統(tǒng)Web應(yīng)用程序?qū)⑸筛嗟娜罩緮?shù)據(jù)。如果企業(yè)使用的云計算服務(wù)提供對錯誤信息的訪問,那么操作系統(tǒng)日志也是錯誤信息的重要來源。
•流量水平。在給定時間內(nèi)有多少用戶訪問企業(yè)的云計算服務(wù)或應(yīng)用程序,流量模式隨時間的變化如何?如果流量突然激增,企業(yè)是否準(zhǔn)備擴(kuò)大云計算資源分配以滿足需求?
要跟蹤和優(yōu)化云計算成本,請查找未使用的資源。正在運(yùn)行但未被主動使用的虛擬機(jī)實例,云計算數(shù)據(jù)庫和其他資源是云中成本效率低下的常見來源。企業(yè)確定并關(guān)閉這些資源,團(tuán)隊還可以考慮將工作負(fù)載遷移到不同類型的體系結(jié)構(gòu),例如無服務(wù)器,這要求企業(yè)僅在服務(wù)處于活動狀態(tài)時才付費(fèi)。
另一個需要關(guān)注的領(lǐng)域是虛擬服務(wù)實例優(yōu)化。大多數(shù)云計算提供商允許用戶從數(shù)十種虛擬機(jī)實例類型中進(jìn)行選擇。當(dāng)企業(yè)能夠確定哪一個對于給定工作負(fù)載而言最具成本效益時,將不太可能超支。此外,用戶應(yīng)盡可能利用折扣實例產(chǎn)品(如保留實例)。
當(dāng)然,安全性是云計算應(yīng)用程序監(jiān)控中的一個重要考慮因素。團(tuán)隊為支持云計算安全而收集的信息類型將根據(jù)他們部署的工作負(fù)載及其面臨的威脅而有很大差異。但總的來說,大多數(shù)云計算安全監(jiān)控策略都將重點(diǎn)關(guān)注以下方面:
•身份和訪問管理。必須正確配置身份和訪問管理(IAM)策略,以防止對云計算資源和服務(wù)的意外訪問。如果企業(yè)使用它們,容器將需要以最大限度地隔離它們和主機(jī)的方式進(jìn)行配置。例如,確保阻止容器以root身份運(yùn)行。
•漏洞檢測。部署在云中的代碼——無論是在虛擬機(jī)、容器、無服務(wù)器功能還是其他方面,查看是否正確掃描了已知的惡意軟件簽名?
•運(yùn)行時異常檢測。應(yīng)監(jiān)控在云中運(yùn)行的應(yīng)用程序和服務(wù)是否存在異常行為,這可能表示存在違規(guī)行為或企圖違規(guī)行為。
•DDoS攻擊。 DDoS攻擊通過向云計算應(yīng)用程序發(fā)送大量請求而使云計算應(yīng)用程序崩潰,對云計算安全和性能都構(gòu)成威脅。IT團(tuán)隊?wèi)?yīng)使用云計算提供商的工具(如AWS Shield)來緩解DDoS攻擊,同時還應(yīng)監(jiān)控表明正在嘗試此類攻擊的網(wǎng)絡(luò)流量模式。
云計算應(yīng)用程序監(jiān)控工具
在云計算提供商提供的本機(jī)監(jiān)控工具(如Azure Monitor和AWS CloudWatch)和第三方監(jiān)控產(chǎn)品之間,可以輕松構(gòu)建云計算監(jiān)控工具集。
大多數(shù)組織將使用其云計算提供商或提供商的本機(jī)工具作為執(zhí)行所有類型的云計算監(jiān)控的基礎(chǔ)。但是,在許多情況下,本機(jī)工具還不夠。添加第三方監(jiān)控平臺是明智之舉,該平臺可以獲取CloudWatch等工具收集的數(shù)據(jù),并幫助團(tuán)隊更有效地分析和可視化。許多這些第三方工具包括應(yīng)用程序性能監(jiān)視(APM)平臺。有些具有安全信息和事件管理(SIEM)平臺,可以分析來自云端的數(shù)據(jù)以發(fā)現(xiàn)安全事件。
有效的云計算應(yīng)用程序監(jiān)控是一項復(fù)雜的工作,需要企業(yè)從多個角度進(jìn)行監(jiān)控。整個IT團(tuán)隊需要做出貢獻(xiàn),部署各種工具和策略來收集指標(biāo),從而全面了解云計算應(yīng)用程序的性能、成本效益、安全性。