傳統(tǒng)的數(shù)據(jù)中心大都通過UPS來給服務器供電,為了保證系統(tǒng)的高可靠性,通常采用了2N甚至2(N+1)的UPS冗余配置,得到兩路獨立輸入給雙電源服務器。然后服務器內(nèi)的兩個電源同時工作均分負載輸出12V以及5V等電壓給主板和相關部件供電,主板上還有一級VRM電源再將12V輸入進一步降壓到1.3V等電壓給CPU以及周邊芯片供電。整個供電路徑非常復雜以及多處冗余,造成真正用于計算的能源不足30%。
UPS環(huán)節(jié)的節(jié)能其實可以通過采用一定技術手段,達到不太犧牲可靠性的情況下實現(xiàn)高效率,而且業(yè)界已經(jīng)有很多大規(guī)模運行的案例,具體可參考拙作《數(shù)據(jù)中心市電直供方案介紹》等。
而服務器電源環(huán)節(jié)的節(jié)能往往受制于服務器設備廠商,畢竟一般用戶無法定制服務器并且在電源效率指標等方面沒有太多話語權。更為主要的是目前數(shù)據(jù)中心的能效指標,比如PUE等是不考慮IT設備內(nèi)電源損耗的,因此一直沒有得到足夠的重視。這里也呼吁早日定制服務器設備的能源之星標準,或者按SPUE(Server PUE,即真正用于設備供電末端有效的能源利用指標)來反映數(shù)據(jù)中心的綠色節(jié)能水平。
言歸正傳,我們再分析傳統(tǒng)雙電源服務器的工作情況,以便找到節(jié)能辦法。其原理是正常工作時候每個服務器電源自動均流各承擔一半負載。當其中一個電源出現(xiàn)故障或者異常時候自動退出,另外一個則承擔起全部負載,保證設備的可靠供電。
這種模式下設備的可靠性是得到了保證,但卻是以犧牲系統(tǒng)效率為代價的。我們知道電源的效率和負載率有一定的關系,通常是負載率越低效率越低,其效率曲線并不平坦。
而且通常IT設備廠商在選擇服務器電源的時候為了保證系統(tǒng)可靠以及減少物料種類,會選擇容量較大的成熟電源,來覆蓋盡可能多的各種不同型號不同功率的服務器。比如主流的兩三百瓦功耗的服務器會采用750W,甚至是1100W的服務器電源。那么這種情況下采用雙電源同時工作的服務器其電源負載率會很低,往往只有20%多,此負載率下普通電源效率只有80%左右,盡管這些電源的最高效率號稱達到90%以上。造成本該用于計算的能源大量浪費,而且散發(fā)到機房中還需要額外的空調(diào)能量來散熱。如下圖,某型號服務器能耗分布圖中占比達44%的other部分其實很大一部分來自AC/DC轉換環(huán)節(jié)的能耗。
為了解決這個問題,我們自然而然想到幾種辦法,一種辦法是采用高效率電源模塊,特別是輕載下的高效率電源,這樣即便兩電源同時工作均分負載,但在低負載下仍保持較高效率,保證了系統(tǒng)的低能耗;另一種辦法是仍采用兩個模塊互為備份,但正常時候只讓一個其中一個電源帶載,另外一個處于備份,這樣來提高工作電源的負載率,從而提高服務器電源的效率;還有一種辦法是采用其他的備份技術,比如雖然設備只有一個服務器電源,但在其12V輸出端掛接電池備份,來替代另外一個電源。這樣即便工作電源出現(xiàn)輸入掉電,但仍有電池等備份保證系統(tǒng)繼續(xù)工作,直至柴油發(fā)電機起來繼續(xù)供電。最后一種辦法是采用集中電源供電方案,單臺服務器內(nèi)不再有傳統(tǒng)的AC/DC電源,集中電源插框得到12V通過背板銅母排直接給每個服務器單元供電,這樣電源負載率很高,而且可以用更少的電源,進一步降低成本,在下面分別介紹這幾種技術。
1.1.采用輕載下高效率電源方案
這種方案實現(xiàn)起來最為容易,只要采用輕載高效率電源模塊替代傳統(tǒng)服務器電源即可,這樣即便服務器電源的負載率只有20%甚至更低,仍可以得到較高的效率。但通常這種方案也是成本最高的,因為首先電源模塊的高效率需要采用超低功耗器件開關器件,比如超低Rds(on)的MOSFET、SIC二極管或者GaN器件等,以及新拓撲技術等,價格肯定不低,而且在此基礎上還要保證輕載下仍有高效率,那么技術難度和成本會進一步增加。此外雙電源方案采用了兩個高效率電源,那么比單電源方案的投資要大。
這里也簡單介紹一些輕載下高效率的技術方案,比如采用multiphase或者interleave等技術,原理是采用多相電源或者交錯技術,當電源工作在輕載下時,那么可以關掉其中的一些相,僅保留需要的路數(shù)在工作,達到高效率目的。這種技術也增加了系統(tǒng)復雜性以及電源價格,當然軟開關技術、低損耗器件以及合理設計也可以大大提升輕載下能耗。
1.2.采用只讓其中一個電源帶載,另外一個備份方案
這種方案的典型案例是facebook的市電直供服務器加48V電池備份方案,每臺服務器配一個277V交流輸入電源以及一個48V直流輸入電源,并用48V電池作為備份,兩電源模塊的12V輸出并在一起給設備供電。交流電源輸入電壓范圍為180V-305Vac,掉電保持時間最少20ms,輸出過壓保護15V,風扇轉速隨環(huán)溫調(diào)壓控制。電池備份采用另外一個450W DC/DC電源,當5ms內(nèi)發(fā)現(xiàn)AC掉電,最大10ms內(nèi)開始DC供電,過渡期間兩者同時供。
由于市電輸入服務器電源在滿負載下有10到20ms的輸出保持時間,那么在輕載下輸出保持時間可以到30ms以上,假定10ms內(nèi)檢測到市電停電,喚醒休眠的48V電源并建立輸出電壓需要10ms內(nèi),再預留10ms的buffer,那么可以在市電停電時喚醒48V輸入電源,并平滑過渡。
這樣,市電正常時候交流電源承擔全部負載,此負載率下電源達到最高效率。48V電源處于冷備份,功耗很少,幾乎可以忽略。這種方案主要的風險是需要在很短時間內(nèi)喚醒備份電源,并平滑過渡切換到備份電源。該風險的一個解決辦法是采用長輸出保持時間的服務器電源,那么這種電源需要較大母線電容或者采用較大功率電源來降額使用,這樣做也可能反倒造成效率降低,因此較難平衡。當然也可以選用熱備份方案,犧牲一點效率,來保證切換過程中的可靠,畢竟可靠才是第一位的。
1.3.采用單電源加電池備份的方案
該方案的典型代表是Google的12V掛電池方案,采用分布式電源加分布式電池互為備份,原理是每個服務器帶一個電源并配一個12V鉛酸電池,市電正常時候市電直接給設備供電并同時給電池充滿電,市電中斷時候電池放電備份幾分鐘,直至柴發(fā)起來繼續(xù)供電。
從網(wǎng)絡上摘抄的一些該電源的簡單資料如下:1、電源輸出13.65V,額定輸出電流20.5A,這個服務器的功耗大家可以估算了,不會超過250w,因此負載率很高。2、關于電池,免維護鉛酸蓄電池無疑,從公開的資料上看其容量只有3.2Ah,充其量只能夠維持5、6分鐘。這個時間足夠保證電池在耗盡之前,柴油發(fā)電機能起來繼續(xù)給電源供電,保證系統(tǒng)不掉電。
該方案的核心技術是電池管理及切換控制,原理如下圖所示,當市電正常時,直接整流得到13.65V給主板供電(選擇13.65V主要是考慮到線上壓降,以及電池電壓),同時給電池充滿電。電池充電電流由RBATT采樣電阻來限制,保證不會有大電流對電池充電造成電流充爆;當市電停電時候放電通路馬上打通,電池直接給負載放電,直至柴發(fā)起來繼續(xù)供電。
隨著未來SSD硬盤技術以及風扇PWM調(diào)壓技術的發(fā)展,以及主板上VRM電源的輸入范圍加寬,那么對12V的穩(wěn)定性不再要求在5%以內(nèi),此時可以直接在12V上掛電池并進行電池的均浮充管理,那么這種12V掛接電池方案的應用會越來越廣泛。
1.4.集中電源供電方案
微軟在2010年推出ITPAC的機柜服務器方案,從概念圖上看機柜采用集中電源供電,并在12V母排集中掛鋰電池備份方案。分為上半?yún)^(qū)和下半?yún)^(qū)單獨供電,單機柜達到18.6KW功率給96臺服務器供電。市電正常時候直接給設備供電,市電停電后靠鋰電池過渡,直至柴發(fā)起來。
選用的4.5KW的服務器電源也是高效率的電源模塊,通過12V集中母排給服務器子機單元供電。
這種方案大大減少了整機柜的服務器電源模塊數(shù)量,從分布的每臺服務器需要兩個電源減少成整個機架只需少量的電源模塊,這樣選擇單位瓦數(shù)價格更低的中大功率電源。由于插框電源通常采用N+1配置,這樣保證了即便出現(xiàn)某個電源模塊故障系統(tǒng)仍能可靠工作。且N+1配置情況下,電源模塊的負載率得到大大提升,保證了電源的高效率。
這種在12V母排上掛電池的方案還可以進一步節(jié)能,比如利用智能節(jié)能休眠策略,在設備CPU利用率較低時候,可以關掉多余的電源模塊,讓電源工作在最高效率點;而在CPU利用率高的時候啟用更多的模塊;在兩者的切換過程中通過電池作為瞬間負載的buffer。保證在全負載范圍內(nèi)都實現(xiàn)高效率,真正實現(xiàn)動態(tài)能源管理。
結語
服務器電源有很多潛力可挖,采用合適的供電結構以及通過一定的技術手段,在保證統(tǒng)可靠性的情況下,實現(xiàn)較高的效率,達到很高的投資收益比。