隨著應用與技術的發展,數據中心的建設規模出現兩極分化的特征:一方面,業務集中與資源共享等趨勢推動數據中心向規模化方向發展,另一方面,小型數據中心在解決資源瓶頸的問題以及提供差異化服務方面的作用日趨明顯。
IT系統的集中規?;ㄔO與垂直化分布特征,對基礎設施的管理提出了全新的要求,這些要求集中體現在融合統一、持續高可用、經濟性運營、可服務等方面,并已成為數據中心可持續發展的關鍵KPI,而以此為基礎的數據中心基礎設施管理(DCIM)成為了精細化運營建設的關鍵內容。
一、為何需要建設精細化運營
早期的數據中心管理側重“監測”,管理對象單一,網絡簡單,煙囪化管理特征明顯,無法支撐業務的可持續發展。物聯網、M2M、云技術的發展,使得大量設備連接成為可能,基礎設施日趨整合,數據規模、復雜性增加,呈現出如下特征:
1、領域產業鏈聚合,海量硬件與軟件連接,資源的統一管理是基本訴求;
2、保障連續供電、連續供冷,構建內耗最小、功效最大的資源服務中心以應對資源集中、成本控制帶來的挑戰,成為IDC建設、過程運營需要面對的共同課題;
3、供電、冷卻能力、機柜空間等資源的最大化利用,成為降低TCO、延長數據中心建設周期的有效方法;
4、同時,DCIM管理與工具快速的滲透到數據中心基礎設施管理的E2E流程中,為自動化、智能化的高效運維與精細化管理提供了基本的技術條件;
建設完整的數據中心涉及基礎設施,技術與系統架構,應用與數據,業務與流程,組織與運營等全方位內容。藉由基礎設施的運營管理,減少數據中心運營和管理成本,提高數據中心的易用性、持續可用性和靈活擴展性,保護投資、提升回報率,幫助用戶實現IT創新甚至業務創新,是IDC精細化運營的基本訴求。
二、滿足要求的精細化運營框架
數據中心建設是不同領域產業鏈的整合,基礎設施呈現出異構、領域差異化特征,需構建一個普適的管理模式,實現統一、融合的管理,以確保業務發生變化時,對系統進行自動調優,實現高效、準確的管理。
2.1 統一、融合的管理
技術、業務、流程的發展和演進,推動數據中心管理目標和功能不斷發展。
數據中心的基礎設施管理已經從基本的動環管理演進為DCIM,且范圍逐漸延伸到BMS、IT資源領域。
管理體系已經由孤立的資源監控、系統及網絡,向著統一、融合,面向服務、流程自動化方向發展。
管理功能從數據收集、發現、實時監控,向歷史數據分析、決策分析、自動響應方向發展。采集實際的數據以及對數據的分析、統計、報告,給出執行策略是差異化競爭力的關鍵。
統一、融合的管理,要求有統一的數據模型,實現多源數據相同框架的管理;要求基于開放的平臺與體系架構,為系統管理工具選型提供更高的靈活性。
2.2 實現與業務關聯的架構
IDC機房管理系統的目標是保障基礎設施的持續高可用性,為業務系統安全、可靠地運行提供保障。
調查發現,在眾多的機房中,盡管已經部署了一定的監控工具,但是這些監控工具都是針對某一個系統或資源設計的,系統相互獨立,無法很好的集成(如制冷系統、供配電系統、服務器網絡設備之間的管理往往由不同的廠家提供,相互獨立)。
由于缺乏集成的管道和框架,其監控的管理信息不能共享,導致誤報警和報警重復等現象。同時,由于這些工具都只是面向基礎設施的監控,即使發現問題,也不能將問題與真正的業務聯系起來,也就不能判斷此問題對業務的影響,同時無法判斷解決問題時的優先級順序,使影響關鍵業務的問題被延遲,甚或被忽略,從而無法達成SLA的關鍵訴求。
因此,一套能實時監控系統、部件運行狀態,準確地判斷對業務影響的系統是實現數據中心智能化管理的基礎。要實現基礎設施的關聯管理,提升運營服務水平,要求:
1、系統能夠將基礎設施的管理與業務流程連接;
2、系統能夠將所有不同的管理工具進行統一和集成,實現信息共享;
3、系統能夠根據共享的信息,建立起業務的關聯視圖。
精細化的運營要求管理工具可將自動化和智能化融入到業務流程中,實現主動式監測和管理,專注于滿足業務增長提出的可用性、容量規劃和資源利用效率需求。
2.3 基于ITIL的最佳實踐
基礎設施管理解決方案不僅關注基礎設施本身,而且還包括組織內部的組織流程、指令規范、 業務。 如何將組織流程、規范及業務融合到管理系統中,實現數據整合,提升運營服務品質是ITIL的基本理念,是數據中心對外提供服務的基礎。
ITIL提供了一個業務與技術相結合的框架,是IT服務管理的成功實踐總結、指導,已經成為事實上的行業標準,借鑒ITIL,運營可以以一種受控、有序的方式向最終用戶提供服務。
ITSM是建立在ITIL基礎上的數據中心管理與運營服務系統,包括如下幾個階段:基礎監控、融合集成、主動預防、自動優化等,是一個漸進過程,處于不斷的優化系統與技術的動態演進中。
基礎監控,是IDC管理的起點,通常以數據采集、故障監控和修復重大故障所需時間作為評估標準,往往是事件觸發式的、被動式的。
在融合集成階段,對基礎設施管理評估標準為:所管理資源的可用性、在故障管理系統中關閉故障所需時間。要改善這些評估指標,離不開對業務流程化、最佳實踐方案的反饋與循環改進。
在主動預測階段,保障業務系統的可用性和SLA,是支撐主動、高效管理的動因。對資源的性能進行評估、分析,并利用相關領域的技能與知識,對系統資源性能、問題、容量做主動式管理,對資源的優化配置提出建議,是該階段實踐的主要內容。
自動優化階段,系統會自動調整資源配置,以優化性能。業務策略、業務優先級及SLA會支配基礎構架優化的行為,如基于業務均衡的IT資源(VM)與基礎設施層的高效節能聯動、基于容量管理的負載均衡與資源優化配置等。
自主階段,使用先進的成本與收益模型、性能與業務響應及時性等來實現業務自動化保障、業務快速部署、資源的最大化利用,實現IDC建設的彈性擴展。
三、持續構建精細化運營系統
數據中心基礎設施精細化運營的真正潛力在數據,數據中有效信息分布在不同的解決方案與DCIM工具中,信息的整合貫穿運營的每個環節,是實現精細化運營、構建競爭力、改變市場格局的有效手段。實現數據中心的精細化運營,可遵從ITIL的服務理念,圍繞數據中心持續高可用、資源最大化利用以及服務運營持續構建。
3.1 高效,持續高可用
通過系統的監控和管理,確保基礎設施的持續高可用性;通過數據的采集與分析,提升資源的利用率;通過自動化的運維模型,提升管理效率,降低成本,實現業務服務的敏捷化。
精細、廣泛的管理
基礎設施的精細化、廣泛的管理,建立在統一、完備的管理模型基礎之上,DMTF發布的通用信息模型CIM框架提供了操作系統、應用程序、網絡和設備管理的基本模型,但要實現基于業務、應用的管理,則需要對模型做合適的擴展,以滿足運營的基本要求。
在構建高效、持續高可用的運營系統的過程中,滿足ITSM管理要求統一的數據模型的基本要求包括:
1、自動的數據采集,設備管理、傳感網絡可持續采集和集中處理數據。
2、具有虛擬現實的建模能力,包括IT與基礎設備在內的資源,可準確的反應現場的配置。
3、所見即所得,可視化的變更、配置,深入到CRAC、行、機架等級,實時可見的能力,可避免主觀臆斷的移動、添加、以及改變數據中心的配置。
4、可持續跟蹤IT資產的財務數據(購買日期、成本)以及物理數據(機架中的位置)的變化,實現生命周期內的資產管理。
5、數據中心的能力規劃與預測,集中式的電源、散熱、空間、網絡占用計算可預知機架能力變化,提高資產利用率。
借助統一的數據模型、組件化及網絡構建能力,DCIM能夠管理分散的、不斷增加的成組應用,支持、收集開局、擴容、遷移、退網等場景下的配置、變更信息,并進行相關處理,提供相關信息,支持決策。用戶可在一個集中可視化視圖中,以一種更直觀、有效的方式來反映當前部件狀態并執行控制任務。
前瞻性的問題管理
IDC管理系統通過對基礎設備、連續供電系統、連續供冷系統的監視、預測,管理粒度細化到設備的運行指標級,深入洞察,實現問題的前瞻性管理。
實現對管理信息的簡潔化訪問,降低響應的時間,減少非計劃的停機;消除故障,在問題沒有發生之前預知;與ITSM的集成,事件管理、問題管理流程化,自動化,是前瞻性管理的必要手段:
1、通過對連續供電、連續供冷系統的監控,感知系統、設備的輸出能力以及性能下降,并對可能的業務影響進行分析,給出預警。
2、利用容量管理,實現機柜級的供電、制冷、空調、網絡的分析,規避資源沖突,在確保資源最大化利用的基礎上,提供連續的服務。
3、提供連續、實時的監控工具,通過信息的簡潔化、快速訪問,降低系統或者網絡的停機時間,縮短MTTR。
4、結合事件、問題管理流程,規避流程外的疏忽和遺漏,保障服務的持續可用性與SLA。
智慧數據中心針對設備故障、運行性能的下降,提供容量、事件、問題管理等功能,可以預定義門限和條件,接收并處理告警、事件信息。
針對問題管理,管理系統利用知識庫、實踐經驗庫,配置相應的功能集,當業務系統、應用子系統或部件的可用性降低或者故障時,可自動感知、并實現主動的管理,進行自診斷、自恢復操作。使得IT人員可聚焦主要的職責,開展主要的業務。
關聯管理提升運營服務水平
智慧管理通過配置服務策略,對資源進行監視,發現影響可用性和預設服務水平的事件、狀態變化和性能降低。
當被監視的系統、設備中發生事件時,該事件被記錄并關聯到相應的業務資源。在業務系統影響視圖中,資源自身及依賴該資源的業務系統同時在界面呈現,幫助用戶快速確定出該資源的問題是否影響到關鍵業務系統。
同時,管理系統將事件與關聯資源的可用性和響應時間指標結合,并可將用戶或用戶組感興趣的資源組織在一起,形成業務系統視圖,實現關聯管理。
實現數據中心系統、服務間的關聯管理,需要建設以下幾個方面的關鍵能力:
1、構建配置、變更管理能力,實現資源的自動發現、自動感知變更、數據同步,使用如設備面板、功耗分布圖、溫度云圖、監視Dashboard等工具,全面掌控環境變化。
2、建立連續供電、連續供冷、管理網絡等系統的拓撲關系圖,提供完整的部件間的上下聯關系樹,并在資源能力下降時,進行關聯影響的分析。
3、共享的信息架構,通過業務關聯視圖,實現聯動控制、集群調控、資源遷移、擴容等操作,保障服務的連續性。
4、上述管理工具與服務流程(工單)結合,實現發現、測量、分析、調優的閉環管理。
3.2 資源利用最大化
隨著數據中心的平均功率密度的持續增長,機位、供電能力、制冷能力的最大化利用,成為降低運營成本的關鍵。而基于供電、制冷、機位、端口的容量規劃和管理,是支持數據中心可持續發展,實現資源利用最大化的關鍵技術。
負載均衡、能效最大化
跟蹤數據中心全局(整個數據中心)或者局部(一個機架)的電源消耗模式,并通過PUE與能耗分布識別改進策略,持續優化電源使用效率,是數據中心能效最大化運營的基本手段。通常包括如下幾個方面:
1) 完備的數據中心能效測量、分析、優化模型;
2) 基于成功實踐的負載管理服務,如應用與負載均布;
3) 能效優化服務能力,如多機柜管理、聯動,模擬配置和部署能力。
能耗測量是數據中心能耗管理的基礎,包括測量點的選擇、測量參數等。能耗的管理策略決定了測量的模型,提供靈活的可定制的測量模型,可為不同場景下的數據中心能效優化提供理論支持。
在具體的實踐中,一般采用PUE、pPUE(局部PUE)、DCiE、能耗分布等模型來評估能效,但要準確的測量,需要系統能準確的描述數據中心的供電、供冷網絡模型。
供電網絡的能耗測量借助智能電量儀、智能配電設備(如rPDU)、UPS等來實現。對于pPUE來說,還需要綜合考慮負載分布情況,實現一個電源系統分供多個負載的精確計算。
供冷網絡的測量主要是借助冷量儀實現,對于一拖多的供冷網絡,需要將支路冷量數據信息通過加權的方式將能耗分解到指定的區域負載。
因此,供電、供冷網絡模型的準確性,所具有的測量條件,以及所采用的測量技術是能效準確評估的前提條件。
負載管理服務包括規劃、監視、配置部署幾個部分,并輔助以機位、制冷等因素,形成以供電、制冷、機位為基礎的容量管理,可為機架乃至數據中心的業務的持續增長提供有效的支持。
負載規劃需要考慮整個數據中心(最小單位為一個機房)的負載部署,在保證業務連續可用性基礎上,通過單機柜、機柜間的負載平衡配置,實現如變壓器、UPS輸出的三相平衡等特性,改善整個機房的供電環境,提升供電品質。同時,負載的均衡分布,可促成冷量的均衡分布,規避冷、熱孤島現象,改善機房的散熱環境,最終顯著的提升PUE。
通過規劃設計能夠在數據中心建設初期確保設計的目標,但在實際的運營過程中,這些配置也不是靜態的,會隨著業務的伸縮不斷的動態變化,如物理設備的移動、變更、擴容服務,以及虛擬機的遷移等。一個具有跟隨配置變更的能效調控工具是實現能效優化運營的基本需求,應該具有多機柜關聯管理、聯動、模擬配置和部署能力。實施可參考:
1) 實時監視功耗,了解服務器/機架的平均和峰值功率。利用能耗管理工具,通過減少空閑容量的配置,提升電力資源的利用率;
2) 實時測量IT服務器的負載,并按照空調最佳COP調節制冷輸出,通過實時的負載溫度監測和制冷容量的自適應控制,實現按需供冷;
3) 根據功耗分布,給出負載規劃、配置優化建議,實現負載再平衡。
容量管理,資源最大化利用
容量管理,是解決不斷變化的業務需求,確保在適當的時間,以適當的數量、適當的價格提供基礎設施服務的能力,關鍵驅動力來源于:
1) 超高密度設備導致的基礎設施能力的可獲得性;
2) 總擁有成本(TCO)控制;
3) 業務的快速伸縮導致的IT設備的快速變更。
在數據中心基礎設施的容量分析中,主要借助供電、制冷、空間、端口、承重等數據,根據規劃與設計的約束條件,計算制冷、供電的匹配能力、空間和網絡端口可獲得性、地板和機架承重限制,在IT需求與物理基礎設施供應之間取得平衡。而最為關鍵的是機架級的供電與制冷的供給及需求的準確分析與評估,需要從如下幾個方面進行量化:
1) 潛在需求:業務配置對供電、制冷的最大潛在需求,一般指考慮系統的峰值功率后的總需求;
2) 實際需求:當前配置的實際需求,指系統實際運行過程中的供電與制冷需求;
3) 設計供給:設計階段給定的機架供電、制冷潛在供給能力,指在設計階段,基礎設施所能供給機柜的能力。
在實際環境中,實際需求小于潛在需求,而設計的供給能力往往大于機柜所配置業務的最大潛在需求,因此通過容量的規劃與精細化測量、評估、匹配,可有效的提高供電與制冷資源的利用率。
通過歷史運行數據分析,對實際需求進行準確估測,以減少實際需求與潛在需求間的余量,實現電源、制冷與負載間的匹配;同時,減少潛在需求與設計供給間的裕量,從已裝機的供電、制冷系統中獲得最佳的機柜供給,最大化的使用裝機容量。在此過程中,可以采用的方法包括:
1) 最佳機位匹配算法,全面考慮供電、散熱、U空間、端口的匹配能力;
2) what if的模擬測試方法,分析和測試如果發生變更則可能對能力配置規劃產生的影響;
3) 機柜功率封頂技術,減少對設計需求的裕量。
在基于ITIL的實踐中,容量管理往往與配置變更、問題事件、可用性管理等結合。容量管理以實際的配置以及配置的變更為基礎,通過測量、分析與評估,給出問題改進建議以及可用性分析報告,來促進配置的調優。
準確的配置模型是進行容量管理的基礎,智能管理系統一般使用基于行業標準(如CIM模型)的預定義對象模型,構建CI屬性和關系,并且模型具有層次結構和繼承關系,便于后續的維護管理,設備信息錄入以及設備間關聯關系的構建能力是基本要求。
變更控制是動態容量管理的保障,為保障容量分析的及時、準確,需要對配置的變更進行同步,保障現場配置與管理系統配置數據庫信息一致。借助移動APP,例行對配置信息進行巡檢、核查,是保障信息一致性的有效手段。
問題、事件管理為容量分析給出的優化建議、預警提供支持,保障容量優化規范、有序、可控。
此外,可視化能力使得從事容量管理的實踐駕輕就熟,管理系統提供可視化的建模能力,以視圖為基礎,跟蹤資產的基本信息、物理數據(機架中的位置)、占位、工作狀態等,全面的掌控資源、容量狀態。借助可視化容量預警、報告,可避免主觀臆斷的移動、添加、以及改變配置,使得基礎設施的可持續性受益,確保生命周期內設備、資源的最大化利用。
3.3 服務的部署、運營與持續構建
數據中心基礎設備的精細化運營的最終目的在于,通過構建不同運營模式的成本模型,提供不同等級的SLA保障服務,以資源綁定用戶,實現不同運營模式的匹配(租賃、托管) 。
靈活部署,柔性擴展
傳統數據中心,通常采用項目單一部署的模式,IT設備與制冷、供電等相關基礎設施靜態綁定,此類強耦合架構,一旦實施,很難根據實際需求作出適應性改變,無法滿足快速響應用戶的要求。為適應用戶需求的快速變化,模塊化數據中心、業務的分期部署與開通成為數據中心運營的首選模式。
匹配該建設模式的運營系統,需要滿足:服務組件化、可靈活部署、可并行維護等訴求。
管理容量的可伸縮,系統支持分布式架構、提供模塊化部署能力,通過靈活組態模式實現模塊構建,適應不同區域和不同數量監控對象的快速建設需求。支持數據中心設計時的統一規劃、分期部署,并以超大容量的接入能力滿足不斷擴展的需要。
管理服務組件化,松耦合,支持服務熱部署,可在線接入相應的服務,而不影響系統其他部分的正常運行,保障服務的連續可用性。
SOA的架構設計,保障服務的可獲得性,并通過“基于服務的業務交付”模式劃分服務粒度,快速組合、封裝、編排,快速發布,持續構建滿足用戶需求的差異化服務,實現組件、服務的精細化管理。
規劃、投資決策
服務管理的另一個目標就是管理量化,借助數據來分析系統的狀況、變化趨勢、將來可能遇到的問題等。
基礎設施運營決策者,需要通過獲取確切、可信的數據,來分析各系統的容量、性能,從而為其決策提供依據。因此,要求智慧管理系統能整合資源的利用率與業務增長的需求,提供報表、業務審計報告,供業務投資與決策參考,保障運營投資按計劃進行。
這些預測性、基于發展的動態分析都應該基于準確的管理模型、動態的數據信息,有效支撐投資決策,保障業務的有效、適時發布,在確保服務可提供、可獲得的基礎上,規避不必要的資源浪費。參考實現:
1) 通過生命周期管理掌控資源的使用狀態、可使用時限;
2) 借助容量管理,實現對容量的準確的分析、預測;
3) 運營成本模型;
4) 業務增長預測;
5) 資源利用率與業務量模型。
實現基礎設施的IaaS
基于ITIL的數據中心管理實踐,從建設模式、運營模式、服務交互模式等方面推動著數據中心發展,使得IDC管理由傳統的動環監控向融合、統一的集中管理發展,通過資源、信息整合提供各類隨需而變的服務。
IDC的運營管理系統建設,不但要關注基礎設施部分,也需要考慮與基礎設施關聯的系統,如制冷系統、變配電系統、生命安全系統等;不但要關注設備本身,也需要關注設備與設備、設備與系統、系統與系統間的關聯;不但要關注基礎設備的實時監控,也需要關注對歷史數據、運行的動態數據的分析和整合,實現主動、自優化的智能運營系統。
管理實踐模式的轉變催生了DCIM,DCIM的目標就是通過IDC基礎設施的精細化管理,將基礎實施與IT基礎架構連接起來,優化使用與IT系統性能、IT操作相關的電源,制冷、空間等資源,通過與ITSM解決方案集成,使得IT服務以及業務服務管理以最有效的方法實現服務交付:
1) 借助基礎設施的融合,DCIM支持跟蹤與管理資產,監控所有的IT與基礎設施資源,跟蹤和管理容量使用,支持規劃、設計,測量、跟蹤、分析環境數據并轉化為關鍵策略。
2) 根據業務需求,建立數據中心基礎設施的資源池,將機房、模塊化、機架、機位等資源池化,根據不同資源量和性能需求,提供高可用、經濟、安全的解決方案以及相應的資源出租和設計、優化、配置服務。
3) 建立基礎設施的持續可用性保障計劃,服務SLA 保障指標量化,差異化的服務成本,服務標準可衡量,支撐租賃、托管等多樣性服務。
4) 按照基于服務的架構基本要求,實現資源、SLA,可服務能力的組件化配置,并將服務進行推送到服務臺,用戶可根據其業務的需求,完成自助式的交互服務。
多源數據的整合,資源池化為建設適應性基礎架構(AI:Adaptive Infrastructure)準備了技術條件,通過統一的管理、動態的資源分配、自助式服務交付、可衡量的服務標準,實現從保障基礎設施的穩定運行,到提供面向業務服務的基礎架構的轉變,構建可服務的基礎架構。
四、結束語
云計算的發展,從建設模式、管理模式、業務模式和業務承載方面影響著IDC,并使得業務向以客戶為中心、以服務為導向轉型,通過整合內容、資源的價值鏈運營,在高性能基礎架構上提供各類隨需而變的整合服務。通過精細化的智慧管理,解決當前數據中心普遍存在的資源利用率低、成本快速增加、資源管理日益復雜、以及服務多樣性等問題,是打造與業務動態發展相適應的高可用、經濟性運營、可服務、可持續發展的數據中心的最佳選擇。