如果數據中心沒有進行適當的物理維護,那么,數據中心出現突發故障后會讓工作人員會手足無措,會將數據中心置于危險的境地。本文將有助于重新評估數據中心設施管理策略,實時更新數據中心內物理指標。
通過數據中心溫度監控 阻止熱點
對于大部分數據中心而言,制冷系統故障以及服務器過熱的問題遠比電源故障更讓運維人員痛心疾首。
當然,對不間斷電源進行良好維護也是很重要的,它是保障服務器設備不間斷正常運行的重要前提,如果遇到突發問題,電源正常運行,直到發電機啟動,電源恢復或者對設備按部就班的關機。但對于現在的設備——高密服務器而言,一旦出現運行溫度升高,冷卻系統出現故障(即使有空調有冗余的情況下)也是可能在幾秒鐘內導致服務器崩潰。 使用數據中心溫度監控可以避免導致設備故障早期出現的問題以及無法解釋的熱點問題。
數據中心熱點是怎樣產生的
熱點可能出現在數據中心的各個角落,他們會在數據中心某一角落默默潛伏,不易察覺,直到設備出現故障或數據出現異常現象才會被工作人員發現。 如果您在沒有了解房間冷卻能力的情況下添加或移動設備,則可能會發生熱點。 幾乎每以個數據中心中,冷卻能力在房間的不同位置和沿著機架高度的不同位置不同。 由于熱點通常會緩慢發生,所以很容易就無法識別,直到情況嚴重,才會被發現。
通過監測數據中心溫度 發現熱點
發現數據中心熱點的最簡單也是最省錢的方式是使用溫控面板。這些控制面板上的多色條帶是具有熱敏性的,而且可以指示出進風溫度。可以將這些指示板安裝在每個機架的頂部、中間及底部附近的位置,或者在硬件前面,接近機架的頂部、中間及底部的位置安裝溫度探測儀。如果只能為每個機架安裝一個溫度探測儀,那么就放在最容易出現故障的硬件的前面,通常也就是放在機架內位置最高的服務器的前面。
數據中心的溫度和濕度探測儀可作為智能機架配電單元的附加組件,作為單獨的無線設備及部分數據中心基礎設施管理系統的一部分。這三種情況都可以提供軟件選項,能夠實時圖形顯示整個機房內的溫度狀況。最終,你可以在設備安裝之前,通過結合這些控制面板給出的數據與計算流體動力學( CFD)的氣流模型給出的建議,驗證安裝的制冷系統設計的冷量的合理性。
許多數據中心都將設計了冗余冷卻單元,但實際上在運行中,冗余冷卻單元根本沒有用到;有時候,這樣的設計并不明智。一些數據中對氣流的流動情況缺乏足夠的了解,從而制冷情況堪憂。在現代設計中,冗余冷卻單元與智能工廠冷卻單元同時運行,但運行速度會降低,因此您不會意識到添加的服務器設備正在竊取冗余容量,直到冷卻單元出現故障或關閉維護為止。
值得慶幸的是,通常,在幾天內服務器在較高的溫度下運,不產生任何負面影響。在緊急情況下,ASHRAE( 美國采暖、制冷與空調工程師學會)允許的溫度范圍提升到28℃或32℃,但考慮到邊緣冗余的情況——再加上運行日久的糟糕的硬件設備,會導致服務器嚴重的過熱,瞬間過熱,會在短時內觸發制冷系統關機。
防止數據中心冷卻故障
有些業界人士認為解決方案是將冗余單元放在正常單元的旁邊,事實上,這么做一點都不可靠。 當氣流從不同位置過來時時,當正常單元運行時,或者當兩者一起運行時,氣流模式將會有一些差異。 這個看似很小的差異會導致數據中心溫度變化,很有可能導致熱點。
熱指標是一個很好的第一步,但是每當硬件更改時,就關閉冷卻單元,只是為了看那些服務器會過熱,是不切實際的。 避免這類問題的最佳方法,特別是在冗余設計中,是使用CFD對冷卻系統進行建模,從而創建數據中心氣流的3D模型,包括特定的冷卻系統和機架熱負荷。 該程序使用這些信息來解決數千個形成氣流分析的復雜偏微分方程。 該模型提供了顏色編碼的圖形和數據表,顯示了房間每個點的氣流量,速度,溫度和壓力,以及活動地板下面的情況。 然后很容易看到現有的額外的冷卻能力,并知道可以在那里添加新的服務器設備。 當然,也有情況時建立的模型中,發現冷卻單元設計不合理,會導致故障,這時,需重新進行運輸,并查看冗余單元是如何工作的。
衡量數據中心能耗、冷卻效率
盡管電源使用效率指標有諸多好處,但是并不足以完全優化數據中心的效率。IT團隊需要更詳細的數據中心指標,包括電力和冷卻基礎設施,以及計算系統,從而能夠真正意義上優化數據中心。
作為朝著這個方向邁進的一步,美國環境保護局在2007年發表過一份關于數據中心效率的報告,該報告闡明要為服務器開發一項能源星級評定制度。Green Grid在2010年公布水資源和碳利用效率指標,盡管他們受到的關注相對較低。2016年6月,Green Grid宣布效益指標(PI),這是一個衡量冷卻標準并將其與能源效率相結合的指標。
備注:PI有四個層級。
Level 1是根下層級,不需要巨大的設備就可以應用。
Level 2需要更徹底、更精確的丈量。
Level 3和Level 4添加計較流體動力學(CFD)的氛圍流建模來提供機能監控的圖形可視化,還提供假設情景闡明,預測利用當前能源效率時,將來的本領和妨礙模式是如何的。Level 3是普通建模。Level 4利用實際和具體的丈量要領,校準計較流體動力學模子作為其他尺度可信賴的精確基線。
我們正在濫用關于性能和效率的數據中心指標,但對于大多數IT團隊,即使是那些經常追蹤其功耗使用效率(PUE)的人員,采取超出該指標的步驟也需要更多的高級數據采集和分析技能。 對于那些準備使用更復雜的優化工具的人來說還有一些需要考慮的方面。
擴容數據中心指標的目的
通過關閉那些沒有運行的服務器、整合及虛擬化應用程序或購買能源星級硬件,實現節能是很常見的。但是,除非電力和冷卻基礎設施也能夠得到優化,這對于現有的系統來說是很困難的,事實上,降低負載不會提高能效。這意味著PUE會變得更糟。通過使用PUE作為基準,而不是跟蹤指標,可能會發現并沒有大家認為的節能,所有的投資和努力是不值得的。作為管理層,他們希望投資能夠產生一個更低的PUE,但他們根本不理解這個數字到底意味著什么。
這就是其他數據中心的指標 - 如Green Grid的數據中心能源生產力(DCeP) - 是有價值的。 DCeP量化數據中心實際產生的每瓦功耗的有用工作量。 DCeP指標可讓用戶確定有用工作的定義。 例如,在線搜索公司可以將搜索結果定義為數量。對于零售商而言,可能是銷售數量。 PUE仍然是必要的,但DCeP會被對于數據中心有較少經驗的人更好地理解。雖然DCeP不是科學上準確的指標,但其提供了一種方法來量化您使用的能量所實現的實際效果。如果一組服務器幾乎沒有工作并且大多數時間都處在閑置狀態,則它消耗最少的能量,需要最小的冷卻并且不會顯著影響PUE.但其仍然會消耗一定的能源。DCeP將對這一消耗進行顯示;其目標是最小化能量消耗并最大化有用的工作。對于處于領先地位的企業組織機構來說,想要在他們所使用的每一瓦特功率中都能夠實現真正有用的生產性計算,復雜的服務器可以提供遠遠超出CPU利用率的操作數據,而更復雜數據中心指標則可以跟蹤結果。
備注:DCeP量化的是數據中心實際產生的有用的工作負載所消耗的能量瓦特數。DCeP度量允許用戶建立其有用的工作負載的定義。
雖然DCeP不是一個科學上準確的指標,但它提供了一種量化您所使用的能量實際完成的方法。 如果一大批服務器在大部分時間內都沒有工作并且運行空閑,那么它的能量消耗最少,需要最少的冷卻,并且不會對PUE產生很大的影響。 但是,它幾乎沒有任何功能。 DCeP會顯示; 其目標是盡可能減少能源消耗并最大限度地利用有用的工作 對于處于領先優勢的組織來說,想要將每一盎司的生產計算從每一瓦的功耗中擠出,復雜的服務器可以提供遠遠超出CPU利用率的運營數據,而更復雜的數據中心指標可以跟蹤結果。
但是,PUE和DCeP仍然是能源效率和能源消耗。 使用它們可能會產生無法識別的后果,因為它們不會泄露出為節約能源而產生的妥協,從而對冷卻和可靠性產生負面影響。 新的PI指標對于具有優于平均數據收集技能的管理員以及對其操作的每個方面進行優化的能力最為有用。
使用擴展的數據中心指標(如PI和DCeP)有三個要求:
1)監測PUE值
2)在計算操作中定義什么構成有效工作
3)在每個機架處,獲得詳細的功耗及溫度測量值。
PI通過組合PUE、IT熱依從性和IT熱適應性來補充現有方法。后兩者分別基于ASHRAE推薦的和允許的熱封套。熱適應性和彈性檢查冗余冷卻在正常和異常條件下的工作狀況。如果必須降低計算機機房的空調空氣溫度以滿足熱合規目標,則PUE可能增加。 PI度量的要點是知道硬件被冷卻的可靠性、設施的能效如何、以及一個條件如何影響另一個條件。決定距離想要達到的操作的最大值的接近程度,以及要所達到能效目標或PUE的目標。然后,測量實際條件,并將它們繪制在三角形圖表上,看看它們與您企業的目標有多接近。
現在,有幾種數據中心的指標,以最大限度地提高整體數據中心的能源效率方面的工作,包括每單位能量消耗的輸出和相對于能源效率的可靠性。對于大多數操作而言,堅持基本原理和跟蹤電源使用效率仍然是優先事項。其他的指標也可以適當跟蹤,但PUE仍然是基礎。即使您企業還沒有準備好采取更為深層次的措施,但還是要了解并知道行業正在提出什么建議——如果您企業已經確立了自己的相關節能目標的話。
改進數據中心設施管理策略
數據中心設施管理(從不間斷電源系統的維護到測量電源效率)可以為IT團隊提供不斷發展的空間。例如,較早期的指標(如PUE)已不足以了解數據中心的效率,而且提高功率密度可能導致更具破壞性的冷卻故障。
所有這一切都意味著調整數據中心設施管理策略是非常重要的,這種調整可以適應變化的標準并保持數據中心的效率和有益成本。下面是2016年SearchDataCenter的四點提示。
更新數據中心的電池技術
隨著數據中心變得越來越智能、高效,更加成熟的不間斷電源(UPS)系統將成為更高的優先級。如今,需要的是具有較小的生態足跡更少的運行冷卻設備以及具有更好的監測數據(如使用壽命、電池的良好狀態及維護需求)功能的UPS系統。
鋰離子電池因其與先進的UPS系統完美集成,已經成為數據中心電池電源的有力競爭。此外,鋰離子電池可以提供更多的能量和功率密度,適合在數據中心內更靈活地放置的較小UPS系統,而且比鉛酸電池更能適應較高的溫度。
當選擇鋰離子電池時,請記住,它們不是熱插拔的,并不一定是鉛酸電池的直接替代品。 鋰離子電池的成本要高于傳統電池,并且可能會有一個復雜的電池管理系統,由此增加運營成本。
識別并防止數據中心熱點
今天數據中心的功率密度增加可以為效率和預算帶來奇跡,但也可能導致冷卻故障的風險,從而導致災難性的服務器崩潰。 如果您在不考慮數據中心的冷卻能力的情況下移動或添加設備,可能會發生熱點,而且很容易被人認識到,直到這個問題以破壞性的方式出現在表面。
為了方便地查找數據中心熱點(能夠通過較低的成本實現)——安裝溫度指示板——彩色的、熱敏的帶,表明進口空氣溫度——靠近頂部、中部和底部都安裝,如果預算緊張的話,安裝在最容易攻擊的硬件前端。
溫度和濕度探測器是另一種選擇——要么是智能機架電源分配單元的附加組件,要么是無線設備,或者是數據中心基礎設施管理(DCIM)工具的一部分,它可以提供數據中心溫度的實時圖形顯示。為了模擬安裝和測試冷卻功能,將計算流體動力學(CFD)空氣流模型與探測器的讀數結合起來。事實上,防止冷卻失敗的最好方法是通過創建一個數據中心的3D模型來防止冷卻失敗。
用新指標準確地測量效率
近10年前,綠色電網引入了電力使用效率(PUE)。從那時起,數據中心技術的發展就有了顯著的發展,使得PUE在精確測量數據中心效率方面的不足。為了獲得真正的效率,IT團隊需要有更為詳細的度量標準,包括電力和冷卻基礎設施以及計算系統。幸運的是,今天的數據中心團隊可以從各種度量中選擇。PUE仍然是效率度量的基礎,但是PI這樣的新指標可以以更細致的方式提高數據中心的設施管理。
數據中心電纜管理提高效率
一些IT團隊在數據中心設施管理方面無意中浪費資源的另一種方法是使用非管理式布線。 布置不良可能會產生熱量,并阻止樓下平面上的冷卻空氣流動,增加成本并造成潛在停機。
要開始清理過程,請使用DCIM工具進行全面庫存,從服務器和交換機到網絡集線器和輔助設備。 使用DCIM工具,對潛在布局執行模擬,以確定最有效的設計,以及分析您當前的接線布局,以確定哪些電纜不再使用, 這可以幫助您清理,而不會造成意外停機。