全球有上百家公司可提供數據中心基礎設施解決方案(DCIM)(附錄1“數據中心基礎設施解決方案(DCIM)DCK指南”中列出了部分供應商),因此,我們很難確定自己真正需要的功能部件。其中很多解決方案中都包含了以下重要功能構件,包括:
資產管理、變更管理與配置管理
資產管理是DCIM的關鍵組成。 從服務器、存儲裝置、聯網設備到電源和冷卻基礎設施,數據中心內包含有成千上萬的資產。對這些資產進行跟蹤是一項持續且一般工作量極大的任務。Digital Realty Trust在一項調查中曾詢問數據中心經理,當有服務器停止工作時,一般需要多久才能被發現。 僅有26%的被調查者表示可以幾分鐘內找到發生故障的服務器。僅有58%的被調查者表示可在4小時內找到該故障服務器;另有20%的被調查者則表示需要一天以上的時間。數據中心若缺乏設備定位功能,將會增加設備的平均修復時間(MTTR),降低設備的整體可用性。
不過,資產管理所包含不僅是簡單的資產定位功能,還包含了解資產配置的詳細信息。例如,一臺服務器可能由一個或多個機架電源插排供電。若這些電源斷開,將會導致服務器停機。這臺服務器可能連接有一臺或多臺切換器或路由器。
重新路由這些網絡設備可能導致無法找到相應的服務器。服務器可能是多臺虛擬機的主機,若關閉該服務器,將會導致這些虛擬機無法工作。 若不了解服務器配置的詳細信息,我們會很難針對服務器及其他配套基礎設施做出合理的決策。而且任何配置發生變化,都可能導致服務器及其相關設施變得無法使用。
為了準確地管理資產及其相關配置,我們還必須對變更進行管理。據估算,近有80%的系統停機時間是由于變更導致的,而且近80%的平均修復時間(MTTR)是用在查找哪里發生了變更。因此,變更管理是DCIM解決方案的重要組成部分。在《可見運維手冊 - 構建ITIL的四大實踐與審核步驟》一書中,作者在對多家高績效IT組織進行調查時發現,故障排查經理僅需查看資產的計劃內變更和授權變更記錄(及實際監測到的資產變更),就可以提出問題解決方法的情況占八成以上,而且一次性故障修復率達90%以上。該作者還發現,那些實施了自動化變更審核的機構在了解到數據中心默默無聞地發生了多少變更后,都感到極為震驚和恐慌。能夠對已授權變更及監測到的變更(不需授權的變更)進行跟蹤是DCIM的一項重要功能,可大大縮短設備的平均修復時間,提高系統的整體可用性。
實時監控
數據中心有三種類別的實時監控系統:
o 樓宇管理系統(BMS)– BMS一般是使用了Modbus、BACnet、OPC、LonWorks 或簡單網絡管理協議(SNMP)的基于硬件的系統。該系統用于監測及控制建筑物內的機械和電氣設備。BMS一般為定制系統,成本取決于要監測的數據點的數目(UPS上的輸出負載或機房空調單元的回風溫度等都屬于此類數據點)。有時,BMS系統會延伸到數據中心,用于監測和控制電源及冷卻設備。
o 網絡管理系統(NMS)-NMS一般是使用SNMP的基于軟件的系統,用于監控數據中心內的網絡設備。網絡設備一般可被自動發現,因此,安裝起來具有一定的自動性。
o 數據中心監測系統(DCMS)-DCMS是用于監測數據中心和機房的基于硬件及(或)軟件的系統。設備一般通過SNMP進行通信,不過,有些數據中心監測系統還通過Modbus、IPMI或其他協議進行通信。
·在評估DCIM解決方案的實時監測能力時,有多項重要特性需要考慮。其中一個關鍵要素就是您想要監測什么設備。這一問題的答案對所選解決方案的影響最大。
例如,若您要監測的設備即包含使用SNMP通信的設備,也包含使用Modbus通信的設備,那么,您所選擇的解決方案一定要同時支持SNMP和 Modbus協議。避免選用那些僅能監測某一供應商特定設備的解決方案,否則,若要對整個數據中心進行監測,您可能就需要購買多個單獨的系統。理想狀態下,您要選擇一款能夠支持多種現成硬件的DCIM解決方案,換言之,所選用的解決方案不應具有供應商定制性。而且,所選解決方案還要能夠同BMS等其他已有的監測系統集成。
此外,您還要考慮該實時監測是否采用了硬件部件。基于硬件的系統并非存在固有缺陷,事實上,與基于軟件的系統相比,基于硬件的系統能夠更快、更頻率地采集數據。但根據所需硬件部件的數目及各部件價格的不同,有時硬件成本可能導致整個DCIM解決方案的價格變得過于高昂。
系統能否支持設備自動發現功能是需要考慮的另一個重要特性。自動發現功能有諸多優點,能夠讓設備安裝起來更快速、更輕松,更不易出現用戶手動配置設備時可能發生的錯誤。需要指出的是,由于自動發現功能取決于設備的配置及所使用的通信協議(例如,SNMP設備一般可被自動發現,而Modbus設備通常無法被發現),因此,并非所有設備都能夠被自動發現。
工作流
很多數據中心都在一定程度上實施了類似ITIL的流程。DCIM解決方案可幫助您協調這些流程。例如,新服務器的安裝一般包含多個步驟,有時可能需要數據中心的不同工作組共同完成。
DCIM解決方案可對各步驟進行跟蹤,各工作組可報告自己任務的完成狀態,以驗證是否所有所需步驟均已完成。在這種情況下,工作流功能可起到協調服務器安裝步驟的作用,以確保在技術人員將服務器安裝到機架前,各項準備工作均已完成,簡化整個工作流程。
而且重要的是,DCIM工具所提供的工作流功能可根據您所定義的流程結構內的工作進行調節,而不需要您調節自己的流程,以與預先定義的工作流相配合。
分析與報告
DCIM解決方案的另一重要功能就是數據分析和報告。由于數據中心內有數千臺設備,每臺設備都會報告多項測量結果,因此,所采集到的數據量很快就會變得無比龐大。所以,DCIM工具必須能夠快速對這些數據排序,并為管理團隊提出可行建議。DCIM工具可通過報警信息、顯示變更及變更時間的歷史數據圖片、儀表板和報表等方式,提出此類建議。DCIM 工具可能提供有預定義的報表,但同時也要支持基于用戶所選參數的特別報告功能。
物理和虛擬基礎設施的可視化
DCIM解決方案的一個重要組成就是能夠查看物理和虛擬基礎設施。當今市場上各種DCIM工具的可視化功能各不相同。有些DCIM工具可與AutoCAD或Visio等可視化工具交互,而有些則提供了虛擬編輯器,您可以在該工具內完整地對自己的基礎設施布局。盡管當前大部分的解決方案提供的都是俯視圖,不過,有些解決方案還提供有3D視圖,讓您能夠在數據中心內“漫游”。很多解決方案都提供有數據中心的多層視圖,可查看諸如溫度、機架使用率、功率等各種參數。
這些可視視圖一般延伸至機架等級,DCIM工具可提供機架內各設備的可視視圖。該視圖會顯示設備在機架或服務器內的真實位置,并可提供各位置機架內的溫度、機架內用電量等額外數據。
用戶界面
若將DCIM的功能歸根結底為向用戶提供信息,那么歸根結底來說,一款不錯的DCIM用戶界面要以便于使用的方式為用戶提供信息,以讓用戶做出明智的決策。在《規劃合理的數據中心操作系統的五大重要組成》一文中,Kevin Malik描述了DCIM用戶界面的重要性,他在文中指出“數據中心操作系統擁有一個直觀的界面,使用戶能夠快速地查看各項報警、環境條件及其他詳細分析數據至關重要。”接著他還補充道,“各公司應能夠對機械數據、功率、冷卻和用電量等實時數據的視圖進行定制,以使決策者能夠根據自己的職責范圍查看所需數據,進而優化數據中心的運行情況”。
就像可視化部件一樣,DCIM的用戶界面在外觀、感受和整體功能方面也各不相同。盡管大部分的DCIM產品都是基于web,用戶可隨時隨地查看數據,但是,用戶界面的格式卻大不相同,其中包括儀表盤式、觸摸屏式,有的還具有支持 iPad及智能手機等手持設備的功能。
容量規劃
DCIM應用程序所采集數據的一項重要功能就是為容量規劃提供信息。當數據中心能夠最大程度地利用其關鍵資源時,尤其是電力和冷卻資源時,才可實現最高運行效率。通過持續記錄資源消耗量及分析增長模式,數據中心管理人員能夠更加準確地預測哪種資源將被耗盡。有了DCIM工具,管理人員能夠更為高效地管理各項關鍵資源,經常可推遲數據中心的擴建日程。
與其他數據中心管理解決方案集成
事實上,DCIM解決方案可能永遠無法像一些DCIM供應商所宣傳的那樣,能夠替代數據中心內的其他各種管理工具。數據中心所使用的常見管理工具包括變更管理、CFD建模、資產管理、樓宇管理系統、維護管理及一些第三方或機構內部開發的工具。一款不錯的DCIM解決方案能夠與一些外部系統相集成,具有從加載Excel電子數據表到直接與成熟的基于web 的API(應用程序接口)進行數據庫交互的功能,使得DCIM能夠從外部導入及向外部導出數據。