本文中,我們將略過關于IT更新的一系列統(tǒng)計數(shù)據(jù)和趨勢的簡介,而把關注焦點聚焦于您的數(shù)據(jù)中心的監(jiān)控實踐方案。
我曾經(jīng)有幸能夠有機會與各種類型的數(shù)據(jù)中心環(huán)境合作過。是的,這些數(shù)據(jù)中心的環(huán)境類型都各有不同。一些數(shù)據(jù)中心采用電源HPC工作負載,而其他數(shù)據(jù)中心則使用云工作負載。然后,還有一些數(shù)據(jù)中心充當了存儲孤島和存儲庫,以及一些數(shù)據(jù)中心是私有的托管合作伙伴。每家企業(yè)組織都可能有不同類型的要求,設備和布局。
然而,現(xiàn)代數(shù)據(jù)中心的關鍵屬性需要匹配最佳的監(jiān)測機制。以下,我將為廣大讀者朋友們介紹一些這方面的最佳實踐方案:
數(shù)據(jù)中心操作環(huán)境監(jiān)測的主要監(jiān)測參數(shù)
溫度。這在任何數(shù)據(jù)中心操作環(huán)境中都是既定的參數(shù)。在任何情況下,均不允許服務器或服務器機架在超出其工作溫度以外的范圍操作運行。確保不斷檢查ASHRAE,以不斷優(yōu)化實現(xiàn)最佳的操作運營溫度。而操作運營環(huán)境溫度是會改變的。為了獲得更詳細的信息,數(shù)據(jù)中心管理人員需要監(jiān)控并查看機架的排氣指標、內部溫度、甚至服務器的溫度。對溫度控制機制的可見度越高,工程師們就可以在相關潛在問題變得嚴重之前及時響應,以盡快解決問題。
濕度和水控制。就像監(jiān)控操作環(huán)境的溫度一樣,數(shù)據(jù)中心內的關鍵系統(tǒng)必須進行濕度監(jiān)控。有多種方法來檢查環(huán)境中的濕度。一般來說,這些檢查都是在機架內部和機架外部的級別。在所有的監(jiān)控情況下,監(jiān)控的級別水平都應該保持穩(wěn)定,并且為了能夠快速反應,數(shù)據(jù)中心操作運營環(huán)境將需要考慮在各個戰(zhàn)略位置都部署多個傳感器。
通道環(huán)境控制。這意味著對溫度、濕度、氣流和冷熱通道的監(jiān)測。根據(jù)數(shù)據(jù)中心操作運營環(huán)境的規(guī)模大小,將會分別設計熱/冷通道。觀察這些數(shù)據(jù)中心通道的溫度范圍可以幫助數(shù)據(jù)中心管理人員快速發(fā)現(xiàn)問題,進而提高運營效率。
靜電。操作運營環(huán)境內的靜電監(jiān)測傳感器有助于幫助數(shù)據(jù)中心管理人員掌握是否有附帶了大量靜電的物體設備進入了數(shù)據(jù)中心設施。靜電對數(shù)據(jù)中心的操作運營環(huán)境是非常有害的,因此管理這些傳感器也是相當重要的。
數(shù)據(jù)中心的訪問。從安全的角度來來看,許多企業(yè)組織都正在部署數(shù)據(jù)中心環(huán)境和機架入口傳感器。當一臺機架未經(jīng)正確配置安裝時,這些傳感器將向管理人員發(fā)送警報。更高級的操作運營環(huán)境實際上將激活指向已經(jīng)打開的確切機架上的攝像機系統(tǒng)。
使用傳感器和傳感器技術
耐用性。大數(shù)據(jù)中心已經(jīng)開始依靠其環(huán)境中的傳感器來提供關于其數(shù)據(jù)中心健康運行狀況的一些最重要的數(shù)據(jù)了。鑒于此,請務必要記住的一項規(guī)則是:沒有一任何一款傳感器能夠確保永遠有效的工作。傳感器也會發(fā)生故障,并可能隨時發(fā)生任何級別的故障。這就是為什么擁有冗余傳感器環(huán)境是非常重要的原因所在了。智能化的數(shù)據(jù)中心監(jiān)控工具將實際觀察操作環(huán)境中的所有傳感器。自動恢復過程可以被配置為同時監(jiān)控多臺傳感器,以防萬一出現(xiàn)故障失敗。這將有助于消除傳感器故障時的誤報。鑒于在大型數(shù)據(jù)中心內部署了這么多的傳感器點,數(shù)據(jù)中心管理人員必須建立適當?shù)木瘓髾C制。如果傳感器發(fā)生故障,則必須立即通知相關的責任人。如果設備開始發(fā)布不正確的信息或觸發(fā)假警報,則情況處理相同。數(shù)據(jù)中心傳感器環(huán)境的主動測試和維護將有助于減少發(fā)生故障的機會。然而,一套良好的管理系統(tǒng)將有助于緩解傳感器發(fā)生故障的麻煩。請務必記住,今天的企業(yè)監(jiān)控系統(tǒng)的建立是用于持久性監(jiān)控的。管理員要圍繞數(shù)據(jù)中心環(huán)境信息,依靠這些數(shù)據(jù)做出非常重要的決定。具有冗余的傳感器架構將有助于數(shù)據(jù)中心中的一部分故障傳感器。
傳感器的安置。在部署數(shù)據(jù)中心傳感器時,考慮操作運營環(huán)境的規(guī)模大小是非常重要的。由于每家企業(yè)的操作運營環(huán)境都是獨一無二的,故而沒有太多的工具可以“自動的”為您安置傳感器。而這便是一家好的合作伙伴可以真正發(fā)揮他們的幫助作用的時候了。 HVAC專業(yè)人員和數(shù)據(jù)中心監(jiān)控/環(huán)境設計專家們可以幫助企業(yè)組織規(guī)劃出傳感器部署的最佳策略。從更高級的角度看,數(shù)據(jù)中心管理人員應該考慮在四個主 要領域部署傳感器。這些四個主 要領域包括:
機架級的監(jiān)控。為了獲得更多信息和冗余,數(shù)據(jù)中心管理人員可以在機架中部署更多的傳感器。然而,傳感器應位于機架的頂部,以便監(jiān)測排出的熱空氣,同時還要安置在機架的底部,以監(jiān)測地板的冷卻度量指標。
操作環(huán)境室的監(jiān)控。這是安置監(jiān)控室內濕度和溫度的傳感器的非常重要的地方。對于大型數(shù)據(jù)中心操作環(huán)境而言,我們建議將傳感器安置在熱區(qū)或距離冷卻單元最遠的區(qū)域。
機房空調/處理器監(jiān)控。這些傳感器將幫助識別與冷卻單元相關的直接故障。其應該被安置在靠近交流設備的地方。
濕度監(jiān)測。根據(jù)數(shù)據(jù)中心的操作環(huán)境,建議在服務器機房外墻以及高架地板下方安置泄漏傳感器。為了檢測來自冷卻裝置的濕度,應該在冷卻裝置周圍放置水傳感器,以監(jiān)測可能發(fā)生的漏水情況。如果使用液冷系統(tǒng),請采取額外的預防措施。
對于為特別業(yè)務案例提供服務的數(shù)據(jù)中心的要求將始終是唯一的。創(chuàng)建良好的監(jiān)控最佳實踐方案需要充分了解數(shù)據(jù)中心的業(yè)務,數(shù)據(jù)中心的設計建造要求和未來的業(yè)務需求。根據(jù)您企業(yè)業(yè)務的特定用例,您可能需要在敏感區(qū)域進行其他方面的監(jiān)控。同樣,敏感的安全區(qū)域可能需要更多的物理監(jiān)控。請務必記住,一切都要圍繞著您數(shù)據(jù)中心的業(yè)務要求進行設計,以便支持您企業(yè)數(shù)據(jù)中心的健康運營和業(yè)務的發(fā)展。
關于作者
本文作者Bill Kleyman是MTM Technologies公司的戰(zhàn)略與創(chuàng)新副總裁。Bill是一位熱心的技術專家,在數(shù)據(jù)中心設計,管理和部署方面有豐富的經(jīng)驗。 他在架構領域的工作內容包括大型虛擬化和云部署,以及企業(yè)網(wǎng)絡設計和部署實施。Bill喜歡關于技術方面的寫作,包括博客和同事間的技術分享。Bill是MTM Technologies公司的戰(zhàn)略與創(chuàng)新副總裁,他負責企業(yè)內部各部門之間的互動,幫助通過規(guī)劃IT戰(zhàn)略來與企業(yè)直接的業(yè)務目標保持一致。Bill所撰寫的白皮書、專欄文章、視頻博客和播客曾先后發(fā)表于InformationWeek網(wǎng)站、NetworkComputing網(wǎng)站、TechTarget網(wǎng)站、《華爾街日報》、ZDNet網(wǎng)站、Slashdot等等。