大家都知道,電子產品內部的絕大部分器件都必須使用直流電來驅動,因此,不管供電系統如何變化,最終都要將電流轉換成直流12V、5V等不同的電壓,IT設備同樣不能例外。
在筆者看來,雖然數據中心的各種供電架構方案五花八門,新產品層出不窮,但其實整個供電系統只為了解決兩個問題:在哪里把交流轉換成直流?在哪里接入備電系統?
筆者將從這兩個方面進行分析,對數據中心目前流行的供電架構進行解析,并分享一些技術發展的個人觀點。大家會發現,基于位置選擇的不同會演化出不同的供電架構,所以筆者將這些年數據中心供電架構的演進戲稱為基于位置(供備電節點)選擇的“供電架構進化論”。
【本文僅代表個人觀點,與其他公司、機構無關,歡迎業內同行不吝指教。】
供電系統:交流與直流的角色扮演游戲
先來看看交直流轉換的問題,目前數據中心采用較多的主要有四種供電方式:
傳統UPS供電系統
UPS系統作為目前應用最成熟的不間斷電源產品在各行各業都有廣泛應用,對數據中心來說,目前的主流產品是在線雙變換UPS。
下圖標示
圖1:UPS、HVDC、google與天蝎服務器
HVDC供電系統
HVDC并非一種新的供電系統,長期以來海外都有少量應用,2007年江蘇電信最早在國內嘗試這種供電方式。目前國內共有兩種制式:電信標準輸出240VDC額定電壓,移動標準輸出336VDC額定電壓。因為240VDC在經過大部分服務器電源(電信認為超過96%)的整流橋后可以直接使用,所以目前在互聯網企業中應用較多。而336VDC的HVDC需要采用定制服務器,雖然效率較高,但目前應用較少。具體分析可參考下圖。
圖2:兩種HVDC的比較
第一代HVDC來源于電力操作電源,所以在效率、精度、監控等方面表現較差,目前主流HVDC均基于通信電源進行開發(-48V輸出),所以在應用上這種供電架構與通信電源有很大的共同點。
在各廠家的宣傳中,HVDC通常具備以下優勢:
效率高,節能環保:通常宣稱的效率在94%以上,比早期工頻UPS高,但與目前主流廠家的高頻UPS相比,并無明顯差別。
少一級變換,可靠性高:早期的推廣者通常會告訴用戶,HVDC只有AC/DC一級變換,而UPS是AC/DC+DC/AC的二級變換,所以HVDC更加可靠,效率也更高。但實際上并非如此,HVDC的拓撲如圖2所示,其內部同樣需要二級變換(實際電路當然并非如此簡單,但包括服務器電源在內的大部分開關電源產品都是這種原理),所以其外在表現出的效率與可靠性指標都與UPS差別不大。
電池在輸出端,備電系統更可靠:這一點筆者比較認可。UPS的電池在斷電時需要通過逆變電路進行輸出,而HVDC與通信電源類似,電池與輸出共母排,理論上備電系統更加簡單可靠。但與通信電源類似,電池長期浮充(熱備份)同樣會對電池壽命造成影響,所以HVDC對電池管理也會有更高要求。
模塊化結構,擴容維護方便:相比傳統的塔式UPS,HVDC模塊可支持熱插拔,所以擴容與維護都比較方便。但與模塊化UPS相比,二者差異不大。
在筆者看來HVDC產品本身并無明顯優勢(與模塊化UPS相比1、2、4均無明顯差別),其價值主要還是體現在由HVDC構成的供電系統以及后端服務器的變化上,HVDC+定制服務器才能最大程度體現其價值,而短期內HVDC的應用主要還是會集中在電信與互聯網領域。
ECO供電方式
圖3:ECO、facebook與微軟服務器
如圖3④中ECO又稱為經濟模式,即UPS通過旁路來進行供電,在停電或電網波動超過設定的上限時自動切換回雙變換模式。這種方式幾乎沒有損耗,效率可以達到99%以上,所以在歐洲等電網環境比較好的地區有不少應用。
那么,為什么數據中心可以采用這種供電方式,其他場景下是否可以使用?
如果把UPS看做黑盒的話,其輸入與輸出都是交流電,似乎并沒有變化,但UPS解決了兩個問題:儲能系統的引入與提供穩定輸出。UPS可以保證IT設備在斷電時繼續工作,這一點大家都清楚,但雙變換拓撲的穩壓、濾波功能卻常常被忽略。在交通、通信等行業以及其他惡劣的使用環境中(工礦、工廠),UPS的抗干擾能力尤為重要,而且電網質量較差,所以不適合采用ECO模式。
但在數據中心應用場景中,情況有些不同。早期的服務器是名副其實的“貴族”,使用UPS就是為了保護服務器遠離來自電網的危害,而如今數據中心的電網環境通常較好,而且目前服務器電源也有較高的抗干擾能力(通常自帶PFC校正功能),還有X86服務器低廉的價格,這些因素導致服務器沒那么“金貴”了,所以數據中心才敢于采用ECO這種近似市電直供的方式來給服務器供電。順便說一句,金融等行業對傳統UPS的青睞也是基于上述歷史的慣性,因為目前不少核心業務還是在使用比較“金貴”的IBM大型機。
目前用戶對于ECO模式最主要的擔心是“斷電能否快速切換回來?”
理論上,服務器電源在斷電后可以依靠自身的電容儲能維持短暫的輸出(大概十幾ms,負載率越高時間越短),而所有廠家宣稱的回切時間都不會超過10ms。所以該模式的安全性是可以保證的,但實際應用中可能還是需要與其他供電方式配合使用才能完全打消用戶的顧慮。
市電直供
這種方式就不需要細說了,它是目前損耗最小(主要在線纜與銅排等傳輸路徑上)最簡單的供電方式,當然同時因為沒有備電系統也無法進行斷電保護。在實際應用中,市電直供主要配合其他供電方式來為IT設備提供電力(如圖1③中所示),下文將會重點介紹其應用。
小結:
從上述幾種供電方式的分析來看,未來將呈現以下趨勢:
1、產品效率越來越高,就UPS來說,目前主流產品效率已高達95%,未來可以提升的空間已經非常有限;
2、從關注產品到關注方案。迫于低成本、高效率等方面的壓力,越來越多的用戶會嘗試更加高效的供電架構而非僅僅關注產品本身;
3、新技術帶來系統可用性的提升,同時對硬件可靠性的要求逐漸降低;
4、在效率提升有限的情況下,其他特性如智能特性、適用性(與其他方案的融合能力)將更加突出。
總體來看,越來越多的用戶會要求設備廠家具備提供綜合解決方案的能力,目前大多數的UPS、HVDC等供電產品廠家都開始推廣微模塊等整體解決方案,而未來技術的發展可能還會推動這種融合向供電鏈路的上下游推進。
目前在供電架構領域,因為各種方式并存,所以各位專家也是眾說紛紜。這里分享一些個人的觀點,還請大家不吝指教。在筆者看來,目前該領域經常存在以下幾個誤區:
誤區一:HVDC過度宣傳。
近年來HVDC發展較為迅速,其主要推動力主要來源于國內三大運營商與BAT等互聯網企業。但整體趨勢來看,目前仍非市場主流,其銷售額仍不到UPS的10%。在筆者看來,HVDC之所以首先在電信進行應用,很大程度上也是源自運營商維護人員對通信電源的熟悉。經過二三十年的實際應用,通信電源的模塊化架構已經十分成熟,而運營商的維護人員也積累了大量的維護經驗,對比只能找供應商來維修的UPS,模塊化的HVDC顯然更符合維護人員的使用習慣。而模塊化的結構將UPS原來的成本黑盒變成了白盒(機框+模塊),技術門檻更低,也更利于大客戶通過集采招標來壓低成本。
而在很長一段時間內,HVDC的發展還有賴于產業鏈的成熟、相關標準的規范。未來隨著電信行業自身轉型的訴求,傳統運營商的業務范圍將從語音向數據過渡,并逐漸形成圍繞數據中心建設的新一代網絡架構。在ICT融合的大趨勢下,交直流混供、一體化設備、CT設備的改造將為HVDC帶來更多機會點。所以,HVDC雖不能包治百病,但未來可能更適合電信行業。
誤區二:標稱效率不代表實際效率。
這里存在兩個問題:1、UPS的標稱效率與實際效率的差別;2、產品效率與系統效率的差別。
UPS和HVDC因為負載率的不同會呈現出不同的實際轉換效率,通常來說負載率越低,效率也越低,所以即便廠家宣稱的UPS效率高達95%,在數據中心實際應用中(業務初期通常低于20%)可能只有90%。所以在選擇UPS時還需要考慮其不同負載率下的效率。當然,選擇模塊化結構的產品(UPS或HVDC)也可以提高供電效率,因為這類產品通常具備模塊休眠功能,可以通過休眠部分模塊的方式來提供系統整體負載率。(可參考“如何選擇模塊化UPS”)
另外一個問題就是上文提到的,產品效率與系統效率的關系。即便選擇了高效的UPS系統,數據中心的實際供電效率仍偏低,主要瓶頸來自服務器電源的效率!下表是國際機構80 PLUS對服務器電源的效率分級,可以看出“黃金級”的服務器電源實際運行效率也只有90%左右,所以對用戶來說,有時選擇更高效率的供電設備,可能還不如想辦法提高服務器的供電效率(這也是為什么上文小結中筆者得出以上結論的原因)。實際運行中的傳統數據中心,大量服務器電源都處于比較低的負載率,而從下表數據可以看出,20%負載率時的效率與50%負載率時的效率差值超過4%,所以提高服務器電源的負載率可能比單純提升前端UPS效率更有效。
通過上述分析就可以得出一個簡單結論:供電系統的整體效率要考慮各個節點的效率,這也是為什么最近幾年互聯網企業的大型數據中心越來越喜歡“折騰”各種創新供電架構與定制服務器,目的就是為了提升整體效率(市電主供可以降低系統損耗,虛擬化技術提升服務器使用效率)。
備電系統:電池的一小步,服務器架構的一大步
再來看看備電系統的接入點,備電系統目前主流采用的是電池儲能,除此之外還有飛輪儲能等方式。目前國內IDC主要以電池儲能為主,飛輪方式因初期投資較高、備電時間短等原因采用較少,本文不做贅述。根據備電系統接入點的不同,同樣也導致了不同的服務器供電架構:
供電系統內部備電(供電鏈路最前端)
這種方式主要應用與UPS系統中,如上文所述,電池組屬于UPS系統的一部分,在斷電后為系統提供備電。對于小型UPS,電池通常會內置于UPS內部;數據中心等中大容量UPS應用場景中,電池一般會獨立放置(獨立的電池房間或微模塊內部)。
按筆者的理解,這種備電方式將電池組置于整個供電鏈路的最前端(不考慮飛輪等場景),適用于傳統的集中式供電方案(置于微模塊內部也可以認為是相對于單個微模塊的集中式供電)。其后端的服務器應用主要是傳統的服務器。
供電系統外部備電(供電系統與IT機柜之間)
這種方式主要應用于HVDC系統中,電池組位于供電系統與IT機柜之間。如上文所述,通信電源也采用同樣的備電方式,這種方式的優勢在于備電系統可靠性更高,其次是直流電輸入到服務器電源內部可以減少一級變換(需要定制)以便提高整體效率。
但需要指出的是,為兼容現有服務器,實際應用中大多采用240VDC的系統,所以其整體效率優勢并不明顯。
與這種供電方式對應的是國內的天蝎機柜,其結構如下圖所示。
圖4:天蝎機柜架構
天蝎供電系統代替了傳統的機架服務器每個服務器節點配備單獨的供電模塊的設計,整柜的供電子系統(電源框)位于整機柜的中間部位,占用3U空間,供電系統有兩路輸入組成一主一備份的架構(各由一半數量的整流模塊組成N+N備份),其中的主輸入回路一般采用市電直供連接,取消傳統供電系統中的UPS等中間電能變換環節,得到最高的電網到IT設備的供電效率;備電回路則將市電經過HVDC系統轉換為高壓直流(天蝎規范定義為240Vdc)接入備電電池組作為備電,當主供回路異常時備電經過支持HVDC的整流模塊變換后供應機柜保證正常運行。
簡單而言,天蝎機柜就是將原本各自分散在服務器中的獨立電源模塊集中到了機柜中為所有服務器單板供電,對供電系統來說,其主要價值是提高了服務器電源的供電效率(負載率提升)并降低了成本。
如果讀者對前文還有印象的話,會發現這與HVDC的思路很接近,都是借用了通信電源的架構,所以說在數據中心領域,未來IT和CT技術的融合將會成為常態。但是將之前“分散”到各個服務器的電源模塊“集中”到機架內,是否是有悖IT設備供電日益分散化的演進趨勢?并非如此,任何一種供電架構都需要考慮可靠性與效率的平衡,集中化是為了提升效率,分散化是為了提升可靠性。
服務器外部備電(IT機柜內部)
這種方式主要通過IT設備自身來備電,所以前端使用何種供電方式都影響不大,不過為降低成本通常是市電直供的方式。對應的服務器機柜架構主要包括微軟的LES電源與facebook的OCP。
微軟LES電源
微軟在2014年正式加入OCP(開放硬件)計劃,在2015年的OCP峰會上,進一步貢獻了其OCS開放服務器與LES(本地能源存儲)分布式供電架構。
LES架構在服務器標準電源模塊內增加了鋰電池包(BBU),鋰電池通過低成本小電流的380V充放電DC/DC電路并聯到PSU的PFC母線上,實現市電正常下的充電,以及市電異常下的備電供應。一個LES電源模塊就相當于一臺UPS。因為每個電源模塊都自帶電池,所以理論上LES的服務器并不需要向其他市電主供的方案一樣要在斷電時進行切換,可靠性應該更高,但因為集成了鋰電池,這種服務器電源的成本顯然也更高。
據說LES供電架構因為不需要UPS和鉛酸電池組,可以節省25%的機房面積與15%的PUE,而且鋰電池采用業界應用最成熟的18650鋰電芯,所以不用擔心電池故障造成服務器損壞。
圖5:微軟LES電源
Facebook的OCP V1.0
Facebook的定制服務器同樣是在服務器電源上打主意。這種服務器支持交流和直流48V兩種輸入,正常情況下由市電進行主供來消除UPS轉換帶來的能量損失,利用277V輸入的PSU(服務器電源)來消除原本PDU(將480V轉換為208V)帶來的損耗。而在停電時,則有電池組提供48V直流給另外一路服務器電源,該路服務器電源將48VDC轉換成12VDC直接向服務器供電。Facebook宣稱采用更高效的VR和PSU,所以整個供電系統效率更高(為了突出節能效果,UPS和PDU的效率他們分別采用了86%和97%,與現實情況差距較大)。
圖6:facebook的OCP電源
服務器內部備電
這種方式主要對應google的內置電池服務器。這種定制化服務器每臺內部都有一塊 12 伏內置電池,正常情況由市場通過服務器電源轉換成12V進行供電,如果停電或主路供電遇到問題,則由電池直接給服務器供電。因為內置電池的成本很低,有多少服務器,就配多少塊電池,所以安裝比較靈活,只要供電系統總容量允許,擴容時基本不用考慮備電的問題。 因為是市電直接供電,所以系統的整體效率就是服務器的效率。
圖7:google服務器
小結:
從備電系統的位置來看,隨著電池組一步步向后端延伸,供電架構也從完全的集中式過渡到完全的分布式(數據中心->微模塊->機柜->服務器),單個服務器本身的可用性也逐步提高。
通過對各種定制服務器架構的分析可以發現:
BAT天蝎:定制化程度最低,對現有架構的變化最小,服務器電源從各自分散變成了集中到整機柜中(目的是提升供電效率與部署速度),定制服務器僅保留原來的單板、CPU等核心部件;也正因為如此,相比更早開展的OCP項目,天蝎項目反而進展更快。
其次是facebook:需要對服務器電源進行定制(可支持48VDC),而儲能系統則可以利用現有的通信電源(鉛酸電池成熟度更高),對服務器改動較小,僅需要更換部分服務器電源模塊;筆者認為,facebook的這種架構其實對通信運營商非常適合,尤其是現網存在大量傳統CT設備的時候(采用48VDC供電),更適合ICT設備融合改造的場景。
然后是微軟的LES電源:其本質是把鋰電池與服務器電源集成到一個模塊里面,而其定制服務器本質上與天蝎服務器一致;LES定制化程度稍高,優點是備電系統與供電系統結合,隨負載靈活擴容,可保持固定的備電時間。(換句話說,想增加備電時間必須同時增加電源模塊)
最后是google:其服務器定制化程度最高,是徹底的分布式架構,相當于每臺服務器都自帶UPS,結構最簡單;但IT設備使用壽命有限,設備更換后電池無法利舊,造成浪費(網上資料不多,筆者猜測,也可能可以通過拆除電池來利舊)。而為了降低成本不可能配置高容量電池,因此備電時間有限(只有幾分鐘),對油機切的換速度要求較高。
組合方式:市電最高效,但提升效率并非唯一目的
通過供電方式與備電方式(不同服務器電源架構)的自由組合,就形成了不同的數據中心供電架構,簡單來說可以分為三類:
傳統的UPS/HVDC系統
傳統的UPS系統為保證供電可靠性,普遍會采用2N、N+1的供電架構(這種架構大家應該都非常熟悉,這里不做過多解釋)。如果再配合前端的雙路市電引入,后端的雙路供電服務器,理論上說幾乎不存在業務中斷的可能。但可靠性提升的同時也帶來了投資的增長,所以除了只看重可靠性的金融行業之外,國內的數據中心很少會采用最高規格的Tier4系統。而隨著云計算、虛擬化等技術的普及,如兩地三中心、同城雙活等災備方案也大幅提升了業務的連續性,單個數據中心的IT設備本身對供電可靠性的要求也有所降低。另外互聯網產品對業務中斷的抵抗力也較強,也是大家敢于不斷嘗試新架構的原因之一。比如上半年的攜程、支付寶故障也只是讓大家感覺不方便而已,并未導致重大的損失(相比金融、通信、交通等行業)。
正是在這種大環境下,互聯網企業才出現了越來越多的新的供電架構。但對于其他行業,以UPS為主的供電架構仍然是當前的主流方案。
市電+UPS/HVDC系統(包括ECO)
首先要強調,所有采用市電直供的IT設備都必須滿足一個大前提:支持雙路輸入。即兩路輸入互為備份,一路斷電后由另外一路供電,切換過程不會影響業務的運行。對單路供電的設備,則只能采用不間斷電源系統(UPS或HVDC)或使用STS在斷電時及時進行電路切換。
采用這種供電架構一般會有兩種形式:1、負載均衡方式;2、主備方式。
幾乎所有模塊化電源(模塊化UPS、HVDC、通信電源、服務器電源)在設計時都會要求每個模塊可實現均流,即按相同比例平均分擔整個負載。對于普通服務器來說,兩路輸入分別來自市電/ECO和UPS/HVDC,雙方各自承擔50%的負載。比如,市電效率為100%,UPS效率為94%,則供電系統整體效率(不考慮服務器電源轉換效率)則是97%。
通過對服務器電源軟件的更改,可以調整各電源模塊承擔負載的比例,比如讓市電承擔100%的比例(即市電主供),另外一路UPS/HVDC作為備份,只在市電故障時才對服務器供電。
其實這種方式在整體效率上已經與互聯網企業的各種定制化方案沒有太大差異了,在正常情況下都是由市電來供電。所以對于比較重視效率,又不希望有太大改動的用戶比較合適。但實際上愿意采用這種供電架構的用戶并不多,用戶通常還是更愿意采用傳統的方式。
市電+定制服務器(市電主供+電池熱備)
互聯網公司的大規模采購量與技術實力使得他們可以進行更多的嘗試。這種架構一般需要配合定制服務器,以使用市電為主,其他方式僅作為備份。對供電架構來說,總的趨勢是從集中到分布式供電。需要特別提出的是:市電主供+電池備份(或UPS、HVDC等)在可靠性上顯然不如傳統的UPS+UPS(2N或N+1)方式,但隨著備電系統下沉到微模塊內、機柜內、甚至服務器內,服務器本身的可靠性在提升,所以綜合來看,市電+定制服務器的方式并一定比傳統方式可靠性更低。
上文提到,如果僅比較供電系統整體效率的話,互聯網的各種定制方案并無明顯優勢(都采用市電主供的前提下)。其優勢主要還是體現在整體方案的部署速度、空間利用率、服務器電源效率、后期維護、綜合成本等方面。
各種定制服務器供電架構的比較如下表所示:
需要指出的時,采用這類供電架構時必須具備一些前提,比如:
1、大型IDC普遍具備大容量油機,可以保證在市電斷電后短時間內切換到油機供電。
所以電池備電時間可以較短,以便降低采購成本,同時也節省機房空間,甚至將電池集成到服務器內部;
2、采購量較大,人員素質高,同時具備較強的方案設計能力與議價能力。所以可以得到供應商的配合來嘗試各種創新方案,可以從整個供電鏈路來進行方案整合,可以利用規模效應影響、推動行業的變化;
3、業務單一,可復制性強,上層業務連續性有保證(災備、虛擬化、快速遷移)。所以可以允許部分基礎設施可靠性的降低來提升效率、降低成本。
小結:
互聯網的“去中心化”思想對數據中心的發展影響深刻。十幾年來,從集中到分散的轉變一直是數據中心發展的大趨勢:從傳統數據中心到云數據中心,再到分布式云數據中心;從傳統集中式供電、制冷到微模塊的分布式供電、制冷。在筆者看來,其本質就是把一個復雜的、不可復制的、串聯的系統拆分成若干個簡單的、可替換的、并聯的系統,由此來降低TCO與維護難度,提升系統的可靠性。
但互聯網行業有其特殊性,這些創新供電架構往往需要其他產品與方案的配合,目前來看尚不具備最廣泛的普適性,至于未來是否能成為主流,現在下結論還為時尚早。
======================================================================
后記:
無獨有偶,在筆者的這篇文章完成一周之后,網上傳來消息:google在比利時的數據中心因連續遭遇四次雷擊而導致電力中斷,造成0.000001%的數據永久丟失。
原因其實筆者在上文中已經提到,即數據中心采用創新供電架構的大前提:
1、備電系統(油機)及時切換是降低電池備電時間的前提:電池系統后移->備電時間降低->對油機的依賴程度提升->油機切換時間要求更快。以上這條邏輯鏈路說明了二者的關系。顯然,這次google的油機并未在市電中斷后發揮其應有的作用。
2、保證上層業務連續性是提升效率、降低成本的前提:google用自身的教訓告訴我們,再完備的硬件架構都可能存在風險,所以數據的備份是必不可少的。
另外需要指出的是,因為缺少中間變換設備的隔離與保護,在采用市電直供方式提高供電效率的同時,來自電網的干擾也會對服務器產生影響(尤其是在雷擊等極端情況下)。媒體并未報道google電力故障的具體原因,筆者猜測:在市電中斷的同時,很可能因為雷擊造成了油機/市電切換系統、配電防雷系統、甚至服務器電源本身的故障,這才導致油機無法及時啟動或啟動后無法給服務器正常供電。所以在采用市電直供方式時,需要更多考慮如何屏蔽來自電網的風險。
【本文僅代表個人觀點,不代表業內各公司與機構觀點。部分圖片來自網絡公開資料,版權歸原作者所有。因作者水平有限難免有疏漏之處,歡迎各位專家交流指導。】
本文寫作時參考了以下文章,在此對原作者也一并表示感謝:
《微軟LES供電架構介紹》-騰訊數據中心
《數據中心不間斷電源系統架構演進》-朱永忠
《大話數據中心之UPS電源發展》-陳炎昌 韓玉