摘要:在本文中,我們將為廣大讀者諸君詳細介紹云環境可能帶來的監控方面的挑戰難題,并還將同大家共同探討企業組織所需要采取相應關鍵方法,以推動實現在云中的最大服務水平、效率和靈活性。
受到加速創新、降低成本和提高靈活敏捷性等機會的誘惑,使得當前的許多企業高管們紛紛都選擇將其企業組織的應用程序遷移到公共云環境中。但企業組織究竟是否能夠盡可能最大程度地實現上述這些優勢,部分將由企業現有的監控能力決定。在本文中,我們將為廣大讀者諸君詳細介紹云環境可能帶來的監控方面的挑戰難題,并還將同大家共同探討企業組織所需要采取相應關鍵方法,以推動實現在云中的最大服務水平、效率和靈活性。
概述
當企業組織尋求在當前的應用程序經濟大環境下獲得競爭力時,許多企業組織越來越依賴于公共云服務。現在,企業組織可以可靠地利用云產品提供各種基礎設施服務,包括計算,存儲和應用程序。以下,是一系列云服務興起,并迅速成為引人注目的替代方案的原因。
一、靈活敏捷性推動創新
在當前的應用程序經濟大環境下,應用程序的創新快到不能再快了。企業客戶和最終用戶迫切需要更強大的功能和更好的體驗。
鑒于企業的領導者們試圖加快將他們創新型的新服務推向市場,他們必須擺脫傳統的IT方法。當他們需要擴展IT容量能力時,他們沒法再耐心等等待冗長的采購、測試和部署周期。
通過在公共云環境中運行工作負載,企業組織可以實現靈活敏捷性的顯著提升。他們可以更快速、更輕松地擴展其容量,從而可以立即適應新的應用程序和服務。如果需求下降,他們還可以相應地立即減少其占用的空間。
新的服務器或服務可以按需提供,這意味著企業工作人員的時間不會再消耗在采購和安裝中。通過利用云環境,企業內部的員工們可以花費更多的時間和精力將新的以應用程序為中心的創新投入市場,并且可以更快地將這些創新推向市場。
二、運作效率和預算的靈活性
鑒于企業在市場中的競爭變得日益激烈,各種規模的企業組織都面臨著以最有效的方式利用資源的壓力。通常,他們承擔不起擴大其基礎設施容量能力所需的周期性的大量的資本支出;也負擔不起與重新分配基礎設施資源,以應對不斷變化的市場條件相關的成本和中斷。
基于云的基礎架構服務提供了一種令人信服的方式來緩解這一挑戰。通過利用按需彈性云服務,企業組織可以擺脫與內部部署基礎設施相關的大量的前期資本支出,轉而采用由業務預算而產生的現收現付服務。這也允許企業組織得以能夠根據業務目標的變化來重新確定IT資源的優先級。
公共云的關鍵監控挑戰
隨著企業組織將越來越重要的業務服務遷移到公共云環境,確保其客戶和用戶獲得優化的體驗變得至關重要。然而,當在公共云中運行應用程序時,跟蹤進度和管理性能和服務水平可能會給IT企業組織帶來諸多方面的挑戰。
一、對云服務及其運行過程缺乏全面的、可操作的見解
當企業組織將工作負載遷移到云環境中時,其IT團隊通常會通過利用其云服務提供商的監控工具來啟動。通常,云服務供應商的監控產品并不是專門的監控解決方案。這些工具缺乏管理員主動管理在云中運行的工作負載和進程的性能和服務級別所需的許多功能。
在使用一款公共云服務時,企業組織通常將注冊特定的基礎設施產品,如計算、存儲等。云服務提供商的工具只會為這些資源提供監控指標,從而導致了只有非常窄的可見性。例如,一款工具會告訴你,CPU利用率是60%,但是其不會提供任何關于哪個進程或服務對該利用率負責的相關細節。
此外,許多這些工具限制了IT團隊進行歷史性能分析和未來容量規劃的程度。這些工具通常只提供初步的報告,只能讓客戶在短時間內保留監控數據。因此,依靠云服務提供商的監控工具的零售商將難以追蹤季節性趨勢,因為它們無法評估年度統計數據。
從根本上說,云服務供應商的工具缺乏有效監控服務水平的能力。因此,很難有效地衡量針對SLA的云服務的性能,并使服務提供商對所提供的服務級別負責。
二、對遷移生命周期的洞察見解有限
隨著企業組織將應用程序和工作負載遷移到云端,他們需要確保這些遷移可靠地發生。為此,有效地跟蹤開發和生產中的工作負載的性能是相當重要的。通過這樣做,員工們可以最有效地確保不會出現任何錯誤或性能問題。最終,他們需要能夠比較生產前期和生產后期的性能指標,以便他們可以繼續優化服務水平,并從云中實現最大的收益。
圖A、為了管理器云和混合IT環境,許多企業組織都依賴于多點監控工具
三、云和混合IT環境的多監控工具的復雜性加劇
盡管對于云服務的采用正在迅速增長,但現實情況則是,大多數企業組織今天所采用的都是混合的方式,在云中運行的某些工作負載,同時還在企業內部部署環境中運行其他工作負載。當企業IT團隊依靠云服務供應商特定的監控技術時,實際的情況是:工具數量和相關的挑戰將會增加。企業客戶的IT團隊將需要繼續使用他們現有的企業內部部署的工具,畢竟,他們已經在這些工具上投入了大量時間來采購,配置和管理。而采用云服務供應商的特定工具則代表了企業員工們還需要學習、使用和管理相關的其他元素。
更進一步加劇了復雜性的事實是,大多數企業組織最終將會利用來自多家服務供應商的云服務。現實情況是,每款應用程序都有其獨特的要求,而每家云服務提供商的產品又分別具有其獨特的優勢和劣勢。因此,對于每款不同的云服務而言,企業組織可能需要添加一個獨特的監控工具的混合。最終的結果是,除了他們可能已經有的用以監控他們企業內部部署的技術的幾十款工具之外,一家企業組織可能最終需要使用來自多家云服務提供商的監控工具。
隨著工具數量的不斷增加,企業的行政負擔和成本也將隨之增加。此外,當出現問題時,工作人員將不得不花費大量時間從一款工具轉移到另一款工具,并參與跨職能團隊會議,以便隔離在分布式環境中的問題根源。
四、利用率洞察見解有限
當利用云服務時,企業按照其所使用的容量能力支付費用。然而,由于繁瑣而有限的監控工具,跟蹤和充分了解當前和正在進行的資源利用率是很困難的。因此,企業組織冒著為他們并不需要的容量能力支出費用的風險,這減少了通過遷移到云服務可能實現的一些潛在的回報。此外,企業組織需要分析歷史數據,以便更好地規劃未來的容量能力和預算,并向開發團隊提供基礎設施視角,進而提高應用程序的性能。
五、缺乏端到端的用戶體驗監控
由于所使用的點工具有限,企業客戶的IT團隊對于最重要的一個方面缺乏洞察力,即:最終用戶體驗的質量。點工具提供了對于特定基礎架構元素的監控,但它們并不能提供從用戶的角度跟蹤性能和可用性的能力,也不能用于衡量跨多個分布式基礎架構和服務的事務的端到端的響應時間。
最終,IT團隊可能從可用的監控指標看到各種基礎設施元素的表現良好,但實際上用戶可能仍然會覺得性能較慢,或者他們可能根本無法完成所需的交易。這種可見性的缺乏將使企業面臨冗長和昂貴的性能和可用性問題。
優化公共云基礎架構性能的關鍵成分
一、獲得對于跟蹤效果的可操作的洞察
通常,來自云供應商的點工具或工具將提供許多指標,但是這些指標難以理解,很難提供一套精準的分析洞察力,并且不能正常化。他們缺乏可以優化性能和更快解決問題所需的可行的洞察。故而企業客戶需要確保使用可操作的指標,為您的云基礎設施提供真正的洞察見解以及掌握如何利用它們。
圖B、監控工具應提供云基礎設施以及在這些環境中運行的服務的統一可見性
二、在云中監控應用程序和服務的運行,以更快地檢測問題
當企業組織注冊公共云服務時,他們通常訂購的是特定的系統或基礎架構服務,例如服務器、存儲、數據庫等。雖然來自云服務提供商的工具將為這些基礎架構元素提供監控詳情細節,但是它們不會對運行在這些元素之上的應用程序或進程的性能提供任何可見性。這些工具可能只顯示CPU的利用率為60%,但并不清楚哪個進程負責了哪項具體的工作負載。而企業團隊需要這種可見性,以全面的方式了解和優化績效。
三、建立云和企業本地內部部署基礎架構的統一視圖,以加快平均修復時間
現實情況是,大多數企業組織都是在內部部署和基于云的環境中運行工作負載。在管理企業內部來源的IT環境時具有統一的觀點是至關重要的。雖然公共云服務在對服務器和其他基礎設施元素的實際控制程度方面提供了顯著的差異,但現實情況則是,具有統一的視圖同樣重要。當IT團隊全面了解其基礎架構的所有功能和利用率時,可以方便他們更快地解決問題。
四、跟蹤端到端的用戶體驗,以確保服務的可靠性
今天,當銀行的客戶登錄到移動手機端的應用程序來檢查她的賬戶時,一些分布式環境可能支持互動。用戶可以登錄到在某家公共云服務提供商的環境中所托管的Web服務器,然后證書可以由本地服務器驗證,然后可以按照順序對托管在第二家云提供商的設施中的后端系統進行帳戶詳細信息的訪問調用。至關重要的是,IT團隊可以從端到端跟蹤這些多步交易,并準確測量用戶正在接收哪種體驗。
圖C、企業IT團隊需要對在云環境中運行的實例具備整體性的視圖
五、讓企業IT團隊對智能報警知情
云環境具有很強的彈性,計算資源不斷地被轉移和處理,這可能會對基于基礎監控工具的團隊造成嚴重破壞。
企業IT團隊需要能夠設置智能、動態更新的閾值,以便他們能夠確保在需要時獲得對于問題的準確判斷,而不會被虛假和冗余的警報所困擾。通過利用復雜的超時閾值分析,IT團隊可以識別真正的、持久的性能問題,并消除與偶爾尖峰相關聯的虛假警報。超時閾值分析可以自動識別潛在的性能下降的威脅,并發出早期的警告,以便管理員可以在內部和外部用戶受到影響之前做出響應。
高級平臺可以提供一份代表了管理員應該注意的問題情況的優先級列表清單。他們還可以在預計發生問題之前按時間排列這些問題項目,以提示首先要注意立即解決的問題。此外,監控平臺需要提供與服務臺解決方案的集成整合,以便在發生問題時,IT團隊可以自動打開一個包含有關問題的所有相關詳細信息的服務清單。
六、建立快速的、基于模板的監控部署
云環境的主要優點之一是他們所具備的靈活敏捷性。但是,云環境動態的,彈性的屬性也向企業IT團隊提出了一些挑戰。鑒于虛擬化的、按需分配的資源不斷被打開和關閉,以適應不斷變化的工作負載,監測還需要在連續的基礎上開始和停止。
為了對這些環境進行有效和高效的監控,IT團隊需要盡可能減少或消除人工手動操作。而為了實現這些目標,IT團隊需要建立用于監控特定類別技術的模板,并盡可能最大限度地利用自動化來應用這些模板。七、在整個遷移周期中利用監控
隨著企業組織將應用程序從企業本地基礎架構遷移到云環境中,他們將需要使用監控,以確保不會引發服務級別的中斷。為了在過渡期間實現最有效地管理服務水平,IT團隊應采用以下方法:
在遷移到新的云環境中時立即建立起對服務的監控,這是至關重要的,因為這是最有可能發生配置和其他與遷移有關的問題。
開發儀表板和報告,提供新的部署實施之前的預先的細粒化的比較,這對于發現可能表明性能和可用性問題出現的趨勢至關重要。
對服務進行綜合監控,無論是在初始的企業內部部署實施中運行,還是遷移到云環境之后。 這些監控指標為最終用戶服務水平提供了無與倫比的前后比較,以便使得IT團隊可以最有效地確保云遷移不會導致任何性能下降。圖D、為了管理云和混合IT環境,許多企業都依賴于多點監控工具
七、主動監控云的利用率
許多決策者最終選擇遷移到云環境,正是因為節省了成本并且可以獲得預算的靈活性。然而,一旦進入云計算,IT團隊就需要主動管理容量,以確保在最初和長期時限內實現最大的成本節約。要實現這些目標,請考慮:
歷史趨勢報告和儀表板。有了這些視圖,分析師們就可以跟蹤長期利用率的趨勢并評估年度比較。對于那些必須適應季節性和劇烈波動的使用趨勢的企業組織而言,這些視圖尤其重要。
成本和利用率數據的智能閾值。通過建立智能化的、超時閾值警報,IT團隊可以確保在資源過度配置之前通知它們,從而更積極地管理服務水平和容量。此外,通過智能閾值,IT團隊可以不斷確保他們掌握利用不足的資源,從而更積極地持續削減開支。
結論
雖然云服務的實施所能夠帶來的益處的確是很大的,但對于許多企業組織來說,某些回報可能是他們難以駕馭的。監控能力將在企業組織是否可以從云部署中實現最大的業務收益方面發揮至關重要的作用。只有借助強大的統一監控,企業組織才能有效地跟蹤和管理用戶所接收到的服務水平,并使業務能夠最充分地利用云產品所提供的成本節約和靈活敏捷性的優勢。