有分析公司認為,當前對于任何大型IT企業(yè)都必不可少的流程:容量能力管理往往都非常的復(fù)雜。而且,在當今加速發(fā)展的商業(yè)世界中,這種管理往往無法有效實施。優(yōu)先級的改變、日益增加的復(fù)雜性和可擴展的云基礎(chǔ)架構(gòu)使得傳統(tǒng)的容量管理模式已經(jīng)不太奏效。在新技術(shù)的支持下,由創(chuàng)新的IT領(lǐng)導(dǎo)者推動,新的容量能力管理模式正在出現(xiàn)。這種新的模式將IT資源使用視為對業(yè)務(wù)有意義的,使用自動化和分析來管理復(fù)雜性,并減少人工操作。
在本文中,我們將與廣大讀者諸君共同討論如何將容量管理中所涉及到的復(fù)雜監(jiān)控、分析和預(yù)測縮減為一項健康的服務(wù)(當前績效)指標,以及服務(wù)風(fēng)險(未來績效)的一個指標,使所有利益相關(guān)方更易于管理和更具可視化。
容量管理的戰(zhàn)略優(yōu)勢
容量管理平衡成本和風(fēng)險
在簡化的意義上,IT容量管理是平衡業(yè)務(wù)服務(wù)的成本和性能的基礎(chǔ),其中基礎(chǔ)設(shè)施的分配和配置是支點。如果您企業(yè)的基礎(chǔ)設(shè)施配置不當或不足以支持業(yè)務(wù)需求,可能會發(fā)生長時間的響應(yīng)時間問題和中斷,從而使業(yè)務(wù)損失高達上百萬。
避免這種情況的一種典型方法是過度配置基礎(chǔ)設(shè)施,即估計所需要的容量,并使之翻一番。據(jù)估計,多達50%的云基礎(chǔ)設(shè)施是未使用的,這種現(xiàn)象在物理存儲中甚至更多。過度配置浪費了大量的硬件,軟件許可和管理成本。而訣竅就在于合理化您企業(yè)的基礎(chǔ)設(shè)施規(guī)模,以滿足當前的需求,并確切的知道何時何地需要增加多少額外的容量。
為了有效優(yōu)化業(yè)務(wù)服務(wù),容量管理過程由四個主要步驟組成:
1、數(shù)據(jù)收集和管理。收集您企業(yè)環(huán)境中每款應(yīng)用程序、服務(wù)和系統(tǒng)的詳細信息和相關(guān)的性能數(shù)據(jù)。
2、數(shù)據(jù)分析。分析數(shù)據(jù)以確定服務(wù)的健康狀況,潛在的性能問題以及這些問題的根本原因,以便您可以解決這些問題。
3、預(yù)測。準確預(yù)測資源短缺何時何地會發(fā)生,這樣才能避免資源短缺。
4、提交可執(zhí)行的信息。為各利益相關(guān)方:IT分析師、服務(wù)經(jīng)理和業(yè)務(wù)領(lǐng)導(dǎo)提供他們可以據(jù)此做出決策所需的信息。
使IT變得如此具有挑戰(zhàn)性的是,鑒于動態(tài)發(fā)展的技術(shù),不斷變化的業(yè)務(wù)需求和需求的增長都增加了復(fù)雜性,使得IT環(huán)境不斷變化。時間一直是性能問題的本質(zhì),但是IT人員分散在各種任務(wù)和項目中,減少了確保服務(wù)交付的時間。最后,容量管理專長越來越少。根據(jù)一家業(yè)界領(lǐng)先的分析公司Research In Action預(yù)測,到2020年,容量和性能管理的技能缺乏將成為75%的企業(yè)增長的主要制約因素或風(fēng)險。
或許正是由于這些挑戰(zhàn)的存在,使得許多技術(shù)領(lǐng)導(dǎo)者認為,容量管理是一大競爭優(yōu)勢,在未來幾年將會變得更加如此。據(jù)Research In Action預(yù)測,到2020年,35%的企業(yè)將使用容量管理工具來獲得競爭優(yōu)勢(而今天的比例則為20%)。
有效的容量管理所帶來的競爭優(yōu)勢:
1、減少了員工致力于提供高可用性和一致的服務(wù)所花費的時間
2、減少任務(wù)關(guān)鍵型應(yīng)用程序的停機時間和瓶頸
3、優(yōu)化硬件,軟件和云存儲投資
4、更有效的業(yè)務(wù)規(guī)劃,使IT投資與業(yè)務(wù)目標保持一致
5、保護企業(yè)品牌聲譽
借助自動化管理復(fù)雜性
近年來,大部分已經(jīng)成功的部署了容量管理的IT企業(yè)均使用了分析和自動化。這種方法的優(yōu)點是速度和準確性,即使在非常復(fù)雜的環(huán)境中,但需要花費相當?shù)臅r間,并采用恰當?shù)墓ぞ吆土鞒虂碛行嵤?/p>
要了解這種方法,如下,讓我們來探討前面所述的每個核心流程:
1、數(shù)據(jù)收集和管理
2、數(shù)據(jù)分析
3、預(yù)測
4、提供可執(zhí)行的信息
數(shù)據(jù)采集
性能數(shù)據(jù)必須以具備足夠的細粒度級別進行收集,以滿足業(yè)務(wù)交易的需求。例如,實時交易和在線購物需要比批量處理更多的細粒度。請記住,您企業(yè)所使用的收集工具必須以自動化和高度可擴展的方式提供詳細,及時的數(shù)據(jù),以確保項目的成功。
數(shù)據(jù)分析
傳統(tǒng)上,這種分析是由容量管理專家通過簡單的工具(如電子表格)“手動”檢查數(shù)據(jù);或通過構(gòu)建和維護定制的工具和查詢來執(zhí)行的。這種類型的手動分析需要花費大量的時間和專業(yè)知識,并用到在許多企業(yè)中已經(jīng)薄弱的資源。自動化是一大解決對策,盡管在這方面存在較少的可行解決方案。歷史上,許多這些“自動化”解決方案仍然需要大量的時間來設(shè)置,并在提供有用的信息方面仍然受限。然而,技術(shù)現(xiàn)在可以用更實際和更有效的方式解決分析問題。
預(yù)測
為了準確預(yù)測性能,我們需要認識到,計算機系統(tǒng)的行為不是線性的。如果其是線性的,那么預(yù)測就像線性趨勢一樣簡單。現(xiàn)實是排隊發(fā)生。排隊是指當一款CPU、控制器或其他設(shè)備有超出其所能夠執(zhí)行處理的工作進入時的情況。然后,服務(wù)不得不等待排隊,就像排隊等待在商店款臺結(jié)帳一樣。當只有很短的隊伍或沒有排隊時,響應(yīng)時間與所添加的工作成比例。您企業(yè)再添加一些工作,一些應(yīng)用程序或基礎(chǔ)架構(gòu),就有了更多的工作亟待處理。排隊由此開始,突然間的延遲是巨大的。這就是所謂的曲線中可怕的拐點,之后的響應(yīng)時間呈指數(shù)增長——等待時間比工作時間還要長,響應(yīng)受到很大的影響。
經(jīng)常,IT假設(shè)延遲將始終是線性的,而他們也正在瘋狂地爭取解決這一問題。
為了避免拐點,許多IT機構(gòu)遵循始終不讓系統(tǒng)所處理的任務(wù)太繁忙的策略,這意味著過度配置——保險但卻造成了浪費。他們?yōu)楸苊夤拯c付出了太多代價。
你企業(yè)必須清楚的知道拐點將在何處出現(xiàn),以便在沒有過度配置的情況下避免它,這需要了解IT組件如何交互來執(zhí)行工作。使用各種技術(shù)來預(yù)測性能的不同程度的精度,從Excel電子表格到線性趨勢,到模擬建模,再到分析建模。
然而,直到最近,這些解決方案都需要用到大量的專業(yè)知識,專長和時間。慶幸的是,現(xiàn)在可以非常及時地自動獲得預(yù)測。
提供可執(zhí)行的信息
有效執(zhí)行上述三個領(lǐng)域的結(jié)果應(yīng)是生成可執(zhí)行的信息和具備可視化的報告。由于IT決策通常對整個業(yè)務(wù)有影響,因此這些信息也必須以對非IT利益相關(guān)者有意義的方式呈現(xiàn)。例如,根據(jù)業(yè)務(wù)指標(如銷售,SLA或正常運行時間)而不是根據(jù)諸如內(nèi)存或I /O等IT指標。IT部門花費數(shù)百或數(shù)千小時為各利益相關(guān)者創(chuàng)建報告并不常見。盡可能的情況下,報告任務(wù)也應(yīng)自動化,使IT人員能夠?qū)W⒂谥鲃咏鉀Q問題和創(chuàng)新。
案例:JN數(shù)據(jù)公司如何管理復(fù)雜性
實時識別和理解企業(yè)中值得關(guān)注的內(nèi)容幫助JN數(shù)據(jù)公司的容量經(jīng)理Henrik Tonnisen向主要客戶(其中包括丹麥第三大銀行Jyske Bank和丹麥最大的抵押貸款公司Nykredit)交付提供了市場領(lǐng)先的服務(wù),資源效率和透明度。
為此,Tonnisen將來自數(shù)萬臺服務(wù)器的技術(shù)數(shù)據(jù)融合到動態(tài)的自助服務(wù)報告中,以滿足每個業(yè)務(wù)利益相關(guān)者的需求,將討論從復(fù)雜的技術(shù)指標轉(zhuǎn)變?yōu)榭刹僮鞯臉I(yè)務(wù)信息。
Tonnisen表示,他們的團隊在宣布推出新的自助報告儀表板后,獲得了利益相關(guān)者的一致好評。
一種新的模式
自動化和分析已被證明對現(xiàn)代容量管理所帶來的挑戰(zhàn)是有效的。然而,直到最近,這些解決方案也仍然需要大量的時間和專門知識來實現(xiàn)有效的實施。
當前,一種新的模式正席卷了整個行業(yè)。這種新的模式使用自動健康和風(fēng)險評分來識別當前和未來的性能,以及未來的時間框架和嚴重程度問題。這是游戲規(guī)則的一個改變:節(jié)省了時間,需要的專業(yè)知識更少,使所有IT10企業(yè)的容量管理更簡單,更易于訪問。
為了方便計算每項服務(wù)的簡單,易于理解的健康和風(fēng)險分數(shù),在幕后運行的是復(fù)雜的算法。監(jiān)控列表可以被定義為將注意力集中在您所使用的服務(wù)上,負責(zé)并且容易地確定需要采取的行動,無論是解決當前問題還是擴展容量,以避免未來的問題。您企業(yè)不再需要花費數(shù)不清的時間在數(shù)據(jù)上了。自動算法將為您執(zhí)行。
為什么要實行健康和風(fēng)險評分?
健康和風(fēng)險分數(shù)涉及容量管理過程中的兩大主要功能領(lǐng)域:
1、性能管理——識別和解決導(dǎo)致應(yīng)用程序響應(yīng)緩慢和服務(wù)中斷的性能問題(健康狀況)
2、容量規(guī)劃——預(yù)測何時需要進行容量升級或額外的基礎(chǔ)架構(gòu),以避免服務(wù)性能不佳或中斷(風(fēng)險)
健康和風(fēng)險分數(shù)如何計算?健康分數(shù)
通過深入了解包含服務(wù)的每個系統(tǒng)來計算健康評分。分析排隊網(wǎng)絡(luò)模型用于計算實際的CPU和I / O性能,并與每個系統(tǒng)的理論最佳性能相比較。內(nèi)存將根據(jù)當前的利用率進行評估,并通過查找與內(nèi)存管理的正常活動級別的任何偏差來進行評估。通過檢查當前可用容量和歷史行為模式來評估磁盤空間使用情況。分析結(jié)果被整合并歸一化,以創(chuàng)建一個易于解釋的健康評分,范圍從0到100,0-44表示健康狀況不佳,45-54表示需要警告,55-100表示 健康狀況良好。
風(fēng)險評分
風(fēng)險評分是通過運行容量規(guī)劃算法來確定的,進而預(yù)測將來服務(wù)將如何運行。容量規(guī)劃算法預(yù)測服務(wù)增長率對構(gòu)成服務(wù)的系統(tǒng)的影響。分析排隊網(wǎng)絡(luò)模型用于計算未來的CPU和磁盤I / O性能,并與系統(tǒng)的理論最優(yōu)性能進行比較。這些模型產(chǎn)生了一系列預(yù)測,這些預(yù)測說明了我們之前討論的計算系統(tǒng)中固有的非線性行為。
通過評估活動模式并在預(yù)測期結(jié)束時預(yù)測磁盤空間的使用情況。基于這些計算,生成風(fēng)險分數(shù)來表示預(yù)測風(fēng)險的嚴重性。風(fēng)險分數(shù)歸一化為0至100的范圍,以代表風(fēng)險量,0-44表示低風(fēng)險,45-54表示警告,55-100表示 高風(fēng)險。除了風(fēng)險評分,還將預(yù)計發(fā)生性能不佳或停電情況的日期。通過在預(yù)測結(jié)果中查找一次性事件和周期性行為來預(yù)測風(fēng)險何時發(fā)生,并計算發(fā)生風(fēng)險的天數(shù)。
簡單性是王道
鑒于所有的工作自動發(fā)生在幕后,容量管理要簡單得多,所有的IT企業(yè)都更容易訪問。企業(yè)不再需要雇傭大量數(shù)據(jù)科學(xué)家,工作人員的工作時間得以節(jié)省下來,預(yù)測不再需要內(nèi)行專家。 IT人員和服務(wù)經(jīng)理可以查看健康和風(fēng)險的單一指標,其次知道應(yīng)該在哪里集中注意力。
準確性事項
算法和計算的準確性非常重要。那么他們有多準確呢?
1、對于CPU和I / O活動而言,到目前為止,最準確的健康和風(fēng)險測定使用分析排隊網(wǎng)絡(luò)模型。
2、對于磁盤空間和內(nèi)存而言,智能算法評估利用率和子系統(tǒng)活動的模式,以準確地解釋當前,并預(yù)測未來的利用率。
所有這些方法都適應(yīng)工作負載,配置和其他環(huán)境變化。使用這些方法與復(fù)雜的算法,最終的結(jié)果是行業(yè)中最準確的健康和風(fēng)險計算,準確率通常為95%。
評估您企業(yè)的選項
目前市場上有各種容量管理解決方案,可滿足不同的企業(yè)環(huán)境和不同需求。而為了有效地評估它們,比較功能和方法是有幫助的,并且有助于理解它們將如何影響您企業(yè)的容量管理成果。
為了確定IT和業(yè)務(wù)服務(wù)的健康狀況,通常會執(zhí)行以下方法,其中已加標的項目代表在新模式中采用的方法:
標準閾值比較
增強閾值比較
事件檢測
從正常運行到變化的比較
分配比較
排隊理論
為了確定IT和業(yè)務(wù)服務(wù)的風(fēng)險,通常會執(zhí)行以下方法,其中已加標的項目代表在新模式中采用的方法:
線性趨勢
增強趨勢
事件預(yù)測
分配預(yù)測
排隊理論
諸如標準閾值比較和事件檢測等選項更容易設(shè)置,但提供的精度要低得多。分配比較和預(yù)測適用于虛擬環(huán)境,但是缺乏驅(qū)動資源效率的能力,因為它們需要考慮分配的內(nèi)容與使用的內(nèi)容。排隊理論需要智能配置和細粒度數(shù)據(jù),但在確定服務(wù)健康和風(fēng)險方面提供了更為準確的結(jié)果。
在選擇企業(yè)容量管理解決方案時,應(yīng)考慮以下因素:
環(huán)境中的物理和虛擬服務(wù)器的數(shù)量
IT企業(yè)所管理的服務(wù)的數(shù)量
未來3年預(yù)計的基建投資情況
目前基礎(chǔ)設(shè)施過剩的程度
關(guān)鍵服務(wù)中斷的潛在成本
這些因素將支撐能力管理投資的潛在回報,并有助于確定您企業(yè)所應(yīng)該追求的解決方案類型。