從歷史數據來看,數據中心IT設備的總電力消耗與網絡機房的設備僅略有不同,這取決于計算負載或操作模式的不同。然而,隨著筆記本電腦的處理器被重新設計用以延長電池的使用時間,其可以使得筆記本電腦處理器的功耗在輕負載時降低90%,服務器處理器的設計也很快跟進。因此,新開發的具備了能源管理功能的服務器會因為負荷水平隨著時間的推移在功耗方面出現劇烈波動,這也就為數據中心和網絡空間的設計和管理帶來了各種新的問題。
一旦這些功率的動態變化可以忽略不計,那么,小型企業或企業服務器的總功率將發生很大的變化。這些功耗的波動可能會導致在數據中心和網絡機房環境無法很好的進行規劃,和其他不良后果。這些問題包括:斷路器跳閘、過熱損耗、造成冗余,為數據中心和網絡機房的設計和運營創造了全新的挑戰。
此外,云計算和虛擬化技術的日益普及,大大增加了規模計算的運用和擴展能力,同時,也大大增加了物理基礎設施的風險問題。在虛擬環境中,虛擬機突如其來的創建和移動需要非常仔細的管理政策,這種政策必須充分考慮物理基礎設施的現狀和容量下降到一個單獨機架級的情況。不這樣做的話,可能會破壞軟件容錯。
數據中心虛擬化和動態功率的變化幅度
二十年前,服務器功率的變化主要是由處理器和內存子系統中的計算負載所決定的。通常,顯著功率波動只是由磁盤驅動器上旋和風扇造成的。而現如今,典型的功率變化大約為5%左右。然而,在更現代化的處理設備中,新技術可以幫助實現低功耗狀態,如改變時鐘頻率、移動虛擬負荷、調節處理器電壓以便更好地匹配非空閑狀態已經部署的工作量。根據服務器平臺的不同,功率的變化范圍可在45%到106%之間,跟二十年前相比可謂是大大的增加了。這種類型的動態功率變化將引起以下四種類型的問題。
1、分支電路超載
通常情況下,服務器操作在輕運算負載情況下時,實際功率會小于服務器潛在最大功耗能力。然而,由于許多數據中心和網絡管理人員沒有意識到電源使用的差異,他們往往安排比實際需要量更多的服務器到一個單一的分支電路。這反過來又造成了潛在的電路超載,分支電路額定功率可能會超過服務器的最大總功耗。雖然服務器能夠成功地在低負載時運行,但當服務器同時接受重載時,超載就會發生。分支電路超載所造成的最重要的危害是電路的跳閘,這將使得計算設備的電源關閉。在一般情況下,發生這些情況是非常糟糕的,因為它們往往發生在高負載期間,對于企業業務的連續性是極為不利的。
2、過熱
在數據中心或網絡機房,大多數被計算設備都是通過釋放熱量來消耗的電力的。功率的消耗的波動取決于負載的變化,其所釋放的熱量也就各不相同。因此,在功耗方面的突然波動可能會導致產熱的危險增加,產生熱斑。雖然數據中心配備了相關的冷卻系統以規范整體溫度,但這些冷卻系統可能不是被設計用來處理特定的功耗的增加所造成的局部熱點。當溫度升高時,可能會導致設備關閉或反常的行為。此外,即使設備功能保持正常,隨著時間的推移可能也會對設備產生不利影響。
熱點也可以發生在一個虛擬化的環境中,而在虛擬的環境中,更多的以分組方式安裝服務器,會造成局部高密度區域。由于虛擬機具備固有的顯著降低功耗的能力,這個問題可能會令人相當吃驚,分組或聚類這些高密度虛擬化服務器的行為可能會導致冷卻問題。
3、冗余損失
為了防止潛在的斷電事故發生,許多服務器、數據中心和網絡機房采用雙冗余電源輸入,旨在將電力負荷平均分配到兩個路徑之間。當某一個路徑運行失敗時,相關的負載就立即進行轉移,造成雙負載以充分支持服務器。為了確保剩余的線路能夠接管完整的負載,如果有必要的話,主要交流支路輸送設備必須被加載到小于50%的載流量。然而,當負載的功耗發生變化時,這會變的很難。最初在安裝過程中設置為小于50%功耗的設備會隨著時間的推移開始在更高的負荷下運行。
如果開始操作時輸入在大于其評級50%的范圍,系統的冗余和保護功能被淘汰。在這種情況下,如果一條線路運行失敗,第二條線路也會超載,會造成斷路器跳閘和電源丟失,進而造成數據丟失或損壞。
4、問題只是被掩蓋了
由于設備的功耗的動態變化肯能僅僅只占到數據中心或網絡機房總功耗變化的一小部分,故而設備可能導致潛在的問題往往被忽視。例如,如果在一個給定的服務器環境中,功率變化為2:1,而設備的功率變換僅僅只占到5%,其余的設備維持了恒定功率,由此產生的大功率或電源分配單元(PDU)可能只相差2.5%。因此,操作人員可能會認為,根本就沒有動態功率消耗的問題,而事實上,它只是被掩蓋了而已。
管理動態功率變化的解決方案
為了緩解上述問題,數據中心和網絡機房運營商應該進一步充分的加深對于動態功耗潛在的危害了解。如下,是一些建議,可以幫助您的企業來減輕這些問題。
1、對為每臺服務器采用獨立的分支電路
因為每一臺服務器運行一個專用電路,獨立的分支電路提供給每臺服務器時就不可能出現超載和冗余丟失的情況。盡管其非常有效,但這種解決方案的造價則非常昂貴,而且部署小型服務器系統也非常復雜,因為每臺機架需要使用大量分支電路。例如,一個機架的雙路1U服務器可能需要多達84個獨立的電路分支,并利用兩個單獨的斷路器的配電板。當使用較大的服務器或刀片服務器時,這種技術更加實用。注意:這種類型的解決方案并不能減輕散熱的問題,如熱點。
2、建立最壞的情況下的安全標準,并在安裝或持續的基礎上測量合規性
大多數的數據中心和網絡空間運營商都有一套負載的標準,通常為典型的滿負荷分支電路額定功率的一小部分。大多數情況下,這些值下降幅度在60%和80%之間,當達到75%的值時,需要考慮功率容量,平衡合理的成本和可用性。為了驗證符合標準,必須測量實際的分支電路負載。然而,當系統表現出顯著不同的功率消耗時,采用這種方法會存在一些問題,因為這將使得難以準確測量并計算負荷。在理想的情況下,一個超重的計算負荷將被放置在被保護的設備中,并在最壞的情況下,測量以保證依從性。
此外,通過廣泛的庫存盤點哪些設備連接到每個分支電路,并測量潛在的最大負荷總和,可以幫助確保分支電路不會出現超載(各種設備的最大負載為設備制造商提供)。這種類型的庫存盤點在大型數據中心是司空見慣的,但對所有的設施都進行盤點是不實際的,因為它要求經營者必須清楚的知道設備插入到每個分支電路的具體時刻。對于小型的數據中心和網絡機房,運營商可以更容易地防止設備出現意外,所以這種方法也是不必要的。
建立安全邊際標準,并利用不斷自動監測系統對所有分支電路實施連續的監測可以作為減輕動態功耗差異所造成的問題的第三種解決方案。在這種情況下,當分支加載開始進入安全區時,運營商會獲得相關的警報通知。例如,使用一個60%的分支加載標準時,當加載超過60%時就會發送警報。這個安全邊際標準的建立是為了就某些重要的狀況事先向運營商發出警告,讓他們在發生故障之前及時的采取糾正措施。這種方法還可以警告即將發生的冗余損失。該方法的具體的優點是,它適用于用戶無需具備數據中心經理一樣的專業知識、也能夠安裝、移動到不同的插座或插頭設備。這種類型的情況,通常發生在一個托管設施或介質安全數據中心,在那里各種人員將訪問的設備。我們建議,該方法可與上述技術結合使用。
3、整合數據中心管理解決方案
為確保避免因功率變化引起的問題,另外一種方法是使用數據中心基礎設施管理(DCIM)軟件,它可以監控和報告的電力和冷卻系統的運行狀況是否良好,并跟蹤IT設備和數據中心或網絡物理基礎設施之間的各種關系。
DCIM安裝在一個給定的機架、電源路徑和冷卻系統上,可以提供對于物理和虛擬服務器的洞察。該軟件還可以幫助消除潛在的人為錯誤的風險、導致停機時間的原因、可以改變IT負責的形式而不占用相關地點的電源和冷卻的狀態。同時自動化監控的DCIM信息(機架空間、電源和冷卻能力和狀況)并就相關的行動實施提出建議,大大降低了風險。
在IT負載的動態功率變化是一個日益重要的問題,一個能夠產生大量物理基礎設施問題,可以損害一個企業的整體連續性的大問題。為了減輕潛在的服務器宕機的風險,數據中心和網絡機房運營商應考慮上述建議,并采取步驟進行適當的規劃和監控。