現如今的數據中心行業正面臨著必須成倍增長的數據處理及網絡容量的需求,這無疑會使得數據中心的電力能源分配及合作伙伴所提供的對于電力基礎設施解決方案的拓撲結構的保護遭遇前所未有的巨大挑戰,而這其中就包括不間斷電源(UPS)模塊,其必須具備更廣泛的電力可靠性,以防止工具或系統電源發生異常或故障。這一水平的可靠性不僅是按時間長度(幾小時或幾天)來計量的,而且還會通過一系列的事件(如,“以多年來單一事件”測得)的數目來計量。對于典型的處理關鍵任務的數據中心而言,防止并處理故障事件的數量與其持續運行時間同樣重要。
而關鍵任務電力行業已經以一系列依賴于設備層和配電冗余的UPS保護拓撲就上述問題進行了廣泛的回應。這種冗余無疑提供了關鍵水平的可靠性、負載共享和效率,但這一切同時也是以不斷飛升的資本支出成本(CAPEX)和運營支出成本(OPEX)為代價的。
這些冗余拓撲(稍后介紹)能夠為四級數據中心以較高的水平提供正常運行時間協會(Uptime Institute) [1] 所估計的每年少于一個事件和每年不到0.8小時的停機時間的可靠性。但這不禁使我們要問如下一系列的問題:“其成本如何?”和“這是對怎樣的數據中心而言?”或更簡單地說“我們如何才能選擇恰當的關鍵供電系統,以匹配我們的數據中心的功能呢?”
合理精簡冗余和可靠性
隨著數據中心市場日漸變得多樣化,某些領域和應用程序將僅僅只需要很少的關鍵電源保護(例如,正常運行時間協會處理云計算社交媒體或搜索引擎數據的一級數據中心);其他的包括有諸如嚴格百分百保證正常運行時間,且遵循服務水平協議(SLA),需要處理視頻流媒體,電子商務和金融/股票交易的關鍵任務應用程序評級為III/IV的托管數據中心;還有一些屬于中等水平評級的數據中心應用程序,其對于正常運行時間和可靠性會根據需求的不同而有所不同。
上述這些不同的正常運行時間的排名均需要不同級別的冗余,且必須由UPS系統拓撲交付傳遞。每種拓撲結構均可以采用多種不同的配置來實現。最佳的UPS系統的選擇取決于如下重要因素,包括冗余、負載功率(千瓦)、故障隔離、負荷共享、資產利用率、容量擴展和總擁有成本(TCO)的CAPEX和OPEX測量。
N系統拓撲
N系統是最基本的關鍵配電拓撲結構,其中“N”是以千瓦為單位進行的負載能力測量。這些系統不在并聯位置安置UPS模塊(或冗余),從而降低了系統的可靠性。
圖1:N系統的拓撲結構。
該系統的拓撲結構也有多個“單一”的故障點,每一到兩年的故障事件[2],這使得其成為最不可靠的。一個單一的故障點被定義為一個系統的一部分,如果其發生故障失敗,將停止整個系統的工作。例如,可以以典型的美國公用事業電網以每年平均24次故障事件[3]在ITIC/CBEMA[4]曲線之外作為參考。再次強調,對于某些低風險的應用程序,如內部信息技術(internal information technology,IT)的處理流程失敗,對一家大型企業或集團的用戶并沒有影響,這種N系統拓撲結構可以是非常有效的。
N系統拓撲結構的主要優點是低初始部署和運營成本(不包括計劃外停機相關成本費用)。另一大優點是系統資產的高利用率。一個N系統拓撲結構的UPS模塊,具有滿額定負荷80%到90%的設計負荷。
N+1系統拓撲
一個N+1系統拓撲開始添加冗余組件,以提高可靠性。同樣“N”是載荷能力,而“1”則是指在系統中的一個額外的UPS冗余電源保護。這些系統以并聯結構運行的UPS模塊,但他們仍然有多個單點故障,包括UPS模塊的輸出并聯總線。一個N+1系統也缺乏冗余的分配路徑,因此,估計每年單點故障的一個事件會有一定的故障風險失敗率。
圖2:并聯冗余N+1系統。
這種拓撲結構被廣泛應用于呼叫中心和并非100%遵循SLA的托管數據中心。其也適用于任何一家不太依賴于互聯網提供服務的企業。
一款N+1系統的拓撲結構,具有較少的冗余元素和更高的利用率,具有較低的初始成本和低運營成本。其更高的利用率取決于所需的N負載的UPS模塊或發電機的數量。N負載的UPS模塊具有滿額定負荷80%到90%的設計負荷,并具有一個額外附加的UPS模塊和發電機添加到系統中。例如,一個由兩個UPS模塊組成的N+1系統,將具備正常模塊40至45%的加載,而一個由五個模塊組成的N+1系統將仍然被限制到65%到70%的模塊加載。
摘要:現如今的數據中心行業正面臨著必須成倍增長的數據處理及網絡容量的需求,這無疑會使得數據中心的電力能源分配及合作伙伴所提供的對于電力基礎設施解決方案的拓撲結構的保護遭遇前所未有的巨大挑戰,而這其中就包括不間斷電源(UPS)模塊,其必須具備更廣泛的電力可靠性,以防止工具或系統電源發生異常或故障。
塊冗余(catcher)系統拓撲
這種并聯的電源架構的另一個變化是塊冗余系統拓撲結構,通常被稱為一個catcher系統。這種方法是一種經濟的方式用來提高系統的可靠性,而無需一個完整的2N系統。它依賴于靜態轉換開關(STS)和catcher UPS模塊的即時處理突然轉向,或階躍載荷,通過從受影響的UPS到后備式UPS轉移負荷的能力。然而,在大多數塊冗余的部署實現方式中,在STS也是一個單點故障,雖然該UPS模塊的利用率得到提高,但其仍限于70-75%的負載以確保冗余。
圖3:塊冗余(catcher)系統。
共享冗余(4N/3)系統拓撲結構
一個共享冗余4N/3系統拓撲與塊冗余拓撲非常相似,除了負載分散在多個路徑和所有的UPS負載,以防止“catcher”系統的塊加載。4N/3和3N/2變化是共享冗余拓撲最常見的形式,而這些拓撲結構的利用率水平是在60-70%的范圍。共享冗余系統的設計,如3N/2,是UPS最大容量(兆瓦/MW)與最大臨界負荷(MW)的比率計算得出,所以UPS的最大負荷利用率將是2兆瓦(負荷)/ 3兆瓦(UPS),這相當于67%的效率。
圖4:共享冗余4N/3系統。
如圖4所示,這種拓撲結構還需要一個明顯的電纜和配電基礎設施,這增加了初始投資資本和安裝成本,并使系統規模化更加困難。此外,該系統在UPS的輸出的功率分布方面具有單點故障。
無論是塊冗余和共享冗余系統,二者均能夠比N+1系統提供更高的可靠性,據故障率估計其每年不到一個事件。這種性能非常適合于大多數實時交付數據和應用程序對于服務、收入甚至是企業聲譽并沒有直接或明顯影響的企業。但這些系統的挑戰在于,其最大利用率是限制為小于70-75%,而由于限制了跨電力基礎設施共享負載的能力,在實際使用時,利用率通常要低得多。UPS和關鍵電力資產的塊冗余或共享冗余系統會變得滯留和未充分利用,由于數據中心在其運行過程中,IT負載/服務器的添加刪除,升級或轉移,系統實際部署的關鍵負載會經常發生變化。
系統加系統(N+N)拓撲
系統加系統(或N+N)拓撲結構,采用了獨立的和冗余的配電系統。此拓撲結構可以設計與任一系統中的N組件或每個系統中的N+1組件運行。兩個獨立的系統提供并發維護,而在某些設計中可以容錯。
圖5:系統加系統(S+S)。
系統加系統的拓撲結構提供了非常高的可靠性,但其也有最高的初始成本和TCO,同時結合了低資產利用率(最大設計負荷40%到45%)。估計拓撲結構在一個五年的時間段內只有一個到二個計劃外中斷(負載下降)。這些設計通常用于企業或設置高可用性的金融服務,每五年測量單一事件是保證服務的核心(如一個SLA托管中心),對收入或企業運營風險和責任會產生顯著的影響。
總結
數據中心行業是動態的、變化的。系統可靠性的變化需要匹配數據中心的“使命”和“關鍵任務”的交付。而現有UPS系統拓撲結構的演變表明,數據中心市場有一系列的系統可以提供最佳水平的高可靠性(N+N),但其成本也非常高。其他選擇包括可以降低成本但具有低得多的可靠性的系統(N或N+1系統);或能夠提供一個較為折中的可靠性水平的(塊或共享冗余)系統,這需要在成本,可靠性和利用率等方面進行復雜的權衡。該行業的下一個挑戰將是推動這些界限的模糊,以尋找新的、能夠提供冗余和適當水平的可靠性,同時降低資本支出和運營成本,并產生更低的總體擁有成本的系統解決方案。
關于作者
本文作者Brad Thrash是GE的關鍵電源業務部門的產品經理,其所在的部門是一支專業的團隊,正在與GE公司的數據中心、通信、計算和客戶團隊共同努力,絞盡腦汁地滿足公司不斷增加的能力和永不滿足的業務需求。這些來自客戶的挑戰幫助他們得以進一步的提高數據容量,建立更好,更智能化的數據基礎設施,提高運營收益。Brad擁有機械工程學士學位,是有執照的專業工程師。他同時也是美國電氣和電子工程師協會(IEEE)和美國機械工程師協會(ASME)的成員。Brad也是綠色網格組織旗下電力工作團隊的成員。
腳注
[1] Uptime Institute正常運行時間協會,http://journal.uptimeinstitute.com/explaining-uptime-institutes-tier-classification-system/
[2] Uptime Institute正常運行時間協會《分級站點定義基礎設施的性能調查》,W. Pitt Turner,2008,9頁
[3] 美國電力研究所(EPRI),《配電系統電能質量評估:第二階段:電壓暫降和中斷分析》2003年3月,表5-12,5-25頁http://www.epri.com/abstracts/Pages/ProductAbstract.aspx?ProductId=000000000001001678
[4]信息技術工業委員會/計算機商業設備制造商協會的曲線是電壓抗擾度要求,即協助關鍵電源理解UPS有望解決什么技術問題。