摘要:采用谷歌的48V供電架構,從電網到CPU全路徑上,只經歷了48V這一中間轉換環節,綜合效率最高。通過48V整機柜技術來降低機柜級PUE,可以節省基礎設施投資和降低電費,意義非常重大。相信會有更多的用戶來使用這個機架式48V供電技術,這降低了采購成本,并大大推進行業采用這一節能技術以及機柜標準的前進步伐。
隨著數據中心需求不斷增加,帶來的能耗增長飛快,目前數據中心能耗占了全球用電量的2%,預計到2020年,全美國的數據中心耗電量將高達1400億度。目前全球數據中心整體PUE值仍然偏高,據統計平均PUE值高達1.8左右,為了降低能耗減少高昂的電費賬單,大家在機房層面做了很多優化工作,比如采用更高效率的UPS或者采用HVDC技術等,但在服務器層面的能效關注度仍不夠,假定機房PUE值達到1.2的優秀水平,但服務器電源效率假定只有60%,綜合PUE值只能相當于2.0的較差水平,有一半能源都被浪費掉了。因此有必要引入服務器PUE(即SPUE)能效概念,讓更多能源真正用于計算,這對于大型云計算數據中心而言特別重要。
傳統數據中心采用UPS給服務器供電,在服務器層面,由服務器電源PSU將機房UPS電降壓成12V,然后再通過服務器主板上的VR降壓模塊分別降壓到1.8V或者1.2V等不同電壓給到內存和CPU等。目前在PSU方面有能源之星等能效要求,基本都實現了80PLUS(即80%)以上效率,甚至部分白金版PSU電源還實現了94%上的高效率,且服務器主板上從12V到POL負載點的降壓VR模塊通常采用了多相交錯的BUCK降壓模塊(輕載下可關閉部分模塊),也基本實現了80%以上的供電效率,但從電網經過機房級UPS、再經過服務器級PSU,以及主板級VR降壓模塊的多級轉換,從電網到CPU和內存的全路徑供電效率只有60%到70%左右,這意味著很大一部分能源都浪費在多級轉換上了,因此有必要精簡這一供電架構并提升轉換效率。傳統服務器供電架構如圖1所示。
為了降低設備投資成本并提高供電效率,現在大型互聯網公司的服務器較多采用了集中電源和風扇的整機柜服務器,比如一個傳統的40臺機架式服務器機柜需要配80個PSU電源模塊,但每個電源的負載率只有30%左右,這種情況下PSU的投資成本很高,且PSU在較低負載下的運行效率都是很不好的。改采用整機柜服務器后可能只需要8個PSU,并且PSU的負載率提升到了60%到70%的較高效率點,無疑整機柜方式更為經濟和高效,如圖2為由集中式PSU電源插框后的12V供電母排給服務器主板來供電。但這種采用12V集中母排的整機柜架構系統集成度很高,在碰到大功率高性能計算場合,12V母排及主板上的低壓傳輸會帶來較多的傳輸損耗。
特別是隨著現代高性能計算的需求,集成的晶體管數量在飛速增加,CPU核數也在不斷增加,計算頻率和線程性能等整體向上,總功耗在快速增加。部分CPU的負載電流高達150A,以及隨著虛擬現實VR等需求,一些新的高功率器件如GPU等也在不斷加大服務器的負載功耗,這個時候若仍采用12V的電壓將會帶來很大的損耗,因此采用更高電壓傳輸變得越來越有必要。圖3為40年的微處理器發展趨勢數據。
但采用非傳統12V的更高電壓軌也會有很多新的挑戰,比如針對高性能計算型CPU合適的POL負載點VR電源技術,以及這些降壓VR模塊的產業生態是否具備,供應商的專業能力是否滿足,是否能按時大量供貨,是否有很好的應用可靠性,以及采用更高電壓后帶來的人身安全,以及可能的EMI(電磁兼容性)問題等,因此找到合適的電壓軌就變得非常重要了。圖4給出了采用高供電電壓的有關問題。
經比較,谷歌最終選擇了48V的電壓軌,因為這個電壓等級在通信行業得已有廣泛成熟的應用,也有了很好的產業生態,而且非常容易實現很高效率和較低成本的48V整機架式UPS。目前業界領先的48VUPS電源效率可以高達97%以上,且由于在通信行業已廣泛應用,48V電源的價格也比較低,此外48V的鋰電池也非常普遍在應用。采用48V母線,可以大大降低母排的傳輸損耗,并可以將機柜的功率擴展到30kW甚至更高,可以很好滿足未來的升級擴展需求。
目前很多網絡設備都可以直接支持48V輸入的電源模塊,因此整機柜的TOR交換機等可以直接從48V母排來供電,甚至風扇墻也可以直接從48V母排上供電,這樣可以直接通過48V母線統一給機柜內的IT設備、網絡設備、UPS電池以及機柜散熱風扇墻等幾乎所有部件供電,實現機柜內供電歸一化,類似今天通信行業48V電源系統一樣,可將IT行業和CT行業統一起來。
采用48V供電架構帶來的最大挑戰是服務器主板需要支持48V輸入,谷歌對此的解決辦法是采用了如下的分布式供電架構,將服務器主板上的不同部件分別處理(傳統12V主板也類似有多個電源),采用幾個不同的VR模塊分別給CPU、DDR內存以及其他外設來供電,目前業界這些48V到POL負載點直接降壓的VR模塊已經技術上很成熟,并且有大規模在應用的案例。圖5列出了采用48V供電架構的原因。服務器供電架構圖如圖6所示。
圖中,由48V~1.2V的POL節點VR模塊給CPU供電,48V~1.8V的POL節點VR模塊給DDR供電,由48V~12V的VR模塊給硬盤、風扇以及其他非核心外設芯片等供電。據統計,在高計算負載情況下CPU和內存的功耗占服務器總功耗高達80%,因此采用這種高效48V~1.X的POL直接降壓VR模塊可較大程度提升傳統12V供電架構效率,也避免采用目前通信行業常用的48V~12V~1.2V多級轉換結構,降低IT設備從電網到CPU全路徑的綜合能耗。有關用電分布如圖7所示。
三者對比,采用谷歌的+48V供電架構,整機POL負載點的效率為94%,綜合系統總效率為92.1%(從電網到CPU的全路徑效率);采用通信行業的-48V供電架構,同樣-48V高效率電源效率按98%計算,-48V到12V的效率為96.5%,板卡上12V~1.8VPOL的VR模塊效率按94%來計算,綜合系統總效率為88.9%(從電網到CPU的全路徑效率);而采用傳統12V供電架構,高效率12VPSU的效率為95%,而12V~1.8VPOL的效率為94%,綜合系統總效率為89.3%(采用UPS給整機柜供電,還需要額外乘以0.94的UPS轉換效率,如果采用12VBBU架構,還會有48V~12V的電池穩壓VR的損耗以及投資)。
綜上所述,采用谷歌的48V供電架構,從電網到CPU全路徑上,只經歷了48V這一中間轉換環節,綜合效率最高,比采用12V母線的方案降低了30%的能耗((10.7%~7.9%)/10.7%=26.2%,這里還沒考慮采用48V母線比12V母線帶來的較多傳輸損耗減降低,加上這部分將超過30%),也比通信行業-48V方案效率更高投資更少。此外傳統12V供電架構可能還需要配置機房級的UPS,而48VUPS供電架構直接采用市電直供不再需要機房級的UPS。因此不管是效率,還是投資方面都有很大的降低。當然,48V供電架構在高功率機柜方面有較大優勢,推進這一技術應用的主要動力是計算負荷的不斷增加,以及48V到POL節點降壓VR和48V服務器的產業鏈和生態,但通過48V整機柜技術來降低機柜級SPUE,可以帶來幾十億美金的基礎設施投資節省和電費降低,也是意義非常重大的。隨著谷歌加入OCP生態聯盟并貢獻這一標準,相信會有更多的用戶來使用這個機架式48V供電技術,以及更多的廠家會參與到這個生態中,這也降低了谷歌自己的采購成本,并大大推進行業采用這一節能技術以及機柜標準的前進步伐。典型功率架構的效率比較和+48V供電的優點分別見表1和表2。
作者簡介
李典林,數據中心資深專家,騰訊數據中心架構師,高級工程師。現任職于騰訊IDC平臺部數據中心規劃組。