這是關于新數據中心的氣流管理考慮的7部分系列的第2部分。 在第1部分中,我討論了服務器功率與入口溫度的關系。 在這部分,我將談論服務器性能與進風溫度。
氣流管理的考慮將是這些問題,這些問題將告訴我們如何利用我們優秀的氣流管理實踐來降低數據中心的運營成本。 在之前的作品中,第七部分系列的第一部分是ASHRAE的服務器度量標準,用于確定數據中心的操作范圍,探討了服務器功率與服務器進風溫度的關系,提出一種評估機械裝置節能以及在更高的溫度下增加服務器風扇能量的方法。
對于大多數應用程序來說,這也是會被數據中心許多行業從業人員所考慮的,因為服務器風扇的能耗與節能正好成反比。
但是,如果溫度提高影響到計算設備運行,真的能因此節能? 這將帶給我們今天的主題和本系列的第二部分:服務器性能與服務器進風溫度。
今天的服務器比最近的傳統服務器更加熱穩定,尤其是A3類和A4類服務器的出現。
(備注:A3、A4類服務器泛指性能好的服務器)
最近,隨著服務器配備變頻風扇以及隨機配備的熱量管理,它們包含了通過降低服務器性能智能應對過高的溫度。 不幸的是,如果節能功能被取消,那么這種自我保護的策略就可能不會起作用。 相反,有一些OEM的服務器本質上只滿足A3、A2服務器(安全操作高達104 F (40℃)的進風溫度,在所有實際應用中,允許操作高達95 F(35℃)。
那么,如果一個新的數據中心正在配備新的IT設備,這是一個更直接的考慮。 然而,如果傳統設備將進入新的空間,讓供應商了解到不同設備溫度閾值可能是重要的。 以下提供的論證表明,運行到低于服務器風扇能耗的溫度水平不會導致當前數據中心ITE的性能下降。
我們會驚訝地發現,今天的CPU設計可以運行高達95 C甚至100 C,并且使用Linpack進行跟蹤浮點運算的測試顯示,例如,服務器可以在100℃中運行,在操作頻率出現輕微下降并導致失敗的事務率為1的情況下,最多可以運行50%的時間。當然,這并不是說可以在100℃下,運行數據中心,因此,訣竅在于保持數據中心在某個時刻運行,確保服務器進風溫度足夠低,以使CPU運行低于性能受到影響的溫度。 當我們不知道這個閾值是多少,可以參考ASHRAE。
盡管供應商給出的數據允許設備在更廣泛的范圍,進風溫度已經從64.4 (18℃)緩慢上升到80.6 F(27℃)。因為大多數服務器都帶有傳感器和輸出,告訴我們CPU的溫度。 雖然該信息可用,但對于數據中心的實時管理不一定是有用的,除非數據中心的每個設備都來自同一廠商,并配備相同的CPU溫度監控輸出格式。 沒有描述我們大部分空間的同質性,我們需要一些指導,指出我們可以在何處采取外部溫度,而不會對內部溫度造成不利影響。
當ASHRAE TC9.9在2011年增加了新的服務器級別并擴展了允許的溫度范圍時,第二年,我們看到了相當大的科學和工程活動,以了解這些環境指南對部署在數據中心的設備的影響。 在IBM進行了一個特別明確和受控制的研究,并在美國機械工程師協會技術會議上報道。
他們的重點專注于A3類服務器(41-104 F)內的服務器性能,更具體地說是在該指南的上限范圍。 他們測試了具有不同電源的1U,2U和刀片服務器軟件包,并選擇了工作負載測試軟件包來模擬高性能計算和虛擬化云的典型工作負載。 他們評估了超過70種不同的CPU,并從最佳和最差的電力泄漏中選出了測試樣本,以確定該變量對這些條件下的結果的影響。
他們在77 F(25℃)服務器進風溫度下對每件設備和相關工作量測試進行了基準測試,然后在95 F(35℃)(A2級上限)和104 F(40℃)(A3級上限)下重新測試。 結果總結在表1中,其中95 F(35℃)和104 F(40℃)是操作執行與77 F(25℃)基線的比率,顯然,表明在這些較高溫度下性能沒有降低。 在測試工作負載和數據采集的+/- 1%容差范圍之外,唯一的測試是在強化的Turbo Boost模式下運行Linpack的最差電源泄漏葉片系統,只顯示出2%的性能下降,或超過1% 容差誤差范圍。
在同一時間框架內,多倫多大學僅在一個服務器型號上進行了測試,但是來自四個主要供應商的七個不同的硬盤驅動器進行了測試,并且實施了更廣泛的工作負載和更多溫度設置的設備。 這些測試使得環境溫度遠高于IBM測試,因此性能下降在正常統計誤差范圍之外變得更容易識別。
Eir的基準工作負載包括測量訪問4gb內存的時間,每秒8kb的塊內存隨機訪問的千兆位更新,整數運算速度,浮點運算速度,響應隨機讀/寫請求的速度,高速處理速度 65kb讀/寫請求,在線事務處理,在線事務的I / O處理,決策支持數據庫工作負載,磁盤綁定數據庫工作負載,文件系統事務和HPC計算查詢,都在公認的行業標準工具 旨在強調系統的不同部分或模擬一些真實世界的應用.3在熱室內進行測試,其中溫度可以從-10 到60 C(14- 140 F,比現在數據中心通常看到的更寬的范圍)。
多倫多大學的研究人員研究了磁盤驅動器和CPU性能。對于磁盤驅動器,在140 F(60℃)的環境溫度下,它們的通量下降通常在5-10%的范圍內,一些高達30%。更重要的是,對于不同的磁盤驅動器,在不同的環境條件下出現了統計學上明顯的吞吐量下降:在104 F(40℃)和113 F(45℃)觀察到的一對,一個在131 F(55℃)之間沒有顯示任何吞吐量的降低。如果您有任何人正在考慮允許您的數據中心在100 F(38℃)以上的“冷通道”,并且由于所有測試設備的額定值為122 F(50℃)或140 F(60℃),查看供應商和模式的原始信息來源,如果不預期允許冷通道或供應溫度超過100 F(38℃),則磁盤驅動器吞吐量將不受數據中心環境的影響。至于CPU和內存性能,他們在任何高達131 F(55℃)的基準測試中都沒有看到任何性能下降。
在2011年ASHRAE環境指南更新發布后立即進行的研究項目的數據強烈表明,服務器入口溫度在服務器風扇能量增加進入機械設備節能之前,以前被標識為閾值的范圍內的計算性能不會降低。
其實,產品性能的溫度遠遠超過了比較經濟的溫度閾值。 因此,這種產品性能的溫度還有上升空間,以此表明除了無需建造機械設備之外,還可以適當合理犧牲一些節省費用。