精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

深入研究機房電力設計產生的單點故障

責任編輯:FLORA

2011-12-13 09:08:41

摘自:TechTarget中國

冗余和在線時間在IT行業里實際上表達同樣意思。本文將向大家提示隱藏在數據中心電力設計中的一些單點故障缺陷,并告訴大家如何補救或避免這些問題。

冗余和在線時間在IT行業里實際上表達同樣意思。在新建或翻修過的數據中心里,很難想象沒有冗余系統或是元件。常見的有多個冗余電源支持的“雙核”服務器和網絡交換機。數據中心基礎設施通常包括冗余空調、不間斷電源(UPS)系統、發電機,甚至包括冗余應用補給以支持某臺可靠設備。本文將向大家提示隱藏在數據中心電力設計中的一些單點故障缺陷,并告訴大家如何補救或避免這些問題。

冗余是否會消除故障呢?當然不會!它會大大降低故障機率,但是決不要認為所需做的就是買兩個完全相同的元件。在很多情況下,一套系統在設計和安裝之前并沒有對整個處理鏈進行過全面分析。這就意味著,所有者在附加的電源和冷卻設備上進行了大額投資,但該設備卻可能因為疏忽或誤解容易受到基礎架構中某個斷路器、閥門或其它單點故障的影響。

下面是一些電力方面的案例,全部取材于實際項目。雖然經過偽裝避免相關人受到責難,但從該圖仍能看出那些會致使高級冗余硬件變得毫無用處的潛在缺陷。同時也表明了對這些隱患進行補救的方法。但是值得強調的是,對于設計缺陷,永遠不可能有解決辦法。這些補救方法只是作為說明在此列出,并不表示是在對如何進行一個專門設計提出要求。

 

圖1

多重隱患

圖1顯示的是一個完整的電力系統。它包括N+1發電機冗余,2N不間斷電源冗余,以及一個完整的空中電源母線通道型2N陳列,共同支持雙核服務器。在這一設計中,暴露了很多缺陷和故障,我們集中討論其中四個主要的問題。圖2對我們最關心的區域(突出標記為紅色)進行了放大并作了注解。后續的圖表分別展示了每一種情況。

圖3

虛假發電機冗余

圖3顯示了一臺具備N+1冗余的發電機設計。(在這個例子中,標成綠色的發電機被視為冗余單位,但在實際中,四臺中的任一臺發電機都會被其它三臺視作冗余。)換句話說,如果有一臺發電機發生故障,其余的三臺發電機能夠承擔起處理數據中心最大負荷量的任務。完全沒問題。

但是請等一下。在這個案例中,發電機是成對安放的,這使得冗余要依賴兩個B型斷路器中(突出顯示為紅色)的任何一個。每個發電機都分別由A型斷路器提供保護,如果其中一個A型斷路器跳閘,冗余依舊存在。但若是B型斷路器中的一個跳閘,與其相聯的兩個發電機將進入脫機狀態,立馬損失一半的發電能力。假設實際上只需要四個發電機中的三個就能處理負荷量,這將引起其余兩個發電機以及/或者另外一個B型斷路器的過載,結果將導致系統快速關閉所有發電機電源。對數據中心來說,這是一個嚴重的后果。

圖4

圖4給出了一個可能的補救辦法。這是一個比較傳統的鋪設方式。它讓發電機在這種并聯裝置中分別連接到共同母線上,從而避免了單點故障的發生。但由于這是N+1設計,仍存在一個小缺陷。那就是這種并聯裝置必須以犧牲后備發電機的條件下發揮作用。要避免這種情況,就需要有完全的2N設計。但如果能在沒有暴風雨,沒有地面開挖的情況下定期維護配電盤,那么,不用斥資進行2N設計,裝置故障的可能性以及對備用發電機的需求也將大大降低。

自動轉換開關的瓶頸

帶備用發電機的設計完全依賴于自動轉換開關(ATSes)。這種開關能感應電源故障,啟動發電機,并在發電機電源穩定之后向其轉移負荷。這種設計里盡管包含了諸多冗余,但如圖5所示,當ATS或其斷路器發生故障時,會導致整個數據中心癱瘓。舉個例子,如果負責UPS交換機的自動轉換開關發生故障,一旦UPS電池耗盡,數據中心將會關閉。類似地,如果負責機械交換機的自動轉換開關發生故障,一旦溫度超過臨界值,數據中心也將關閉。實際上,這是連鎖反應。像刀片機這樣的高密度計算機,最先關機,其余設備將根據其所處的房間位置以及房間溫度上升情況陸續關閉。當UPS過熱時,將出現全面停機,這種情況可能會在設備過熱前就已發生。即使自動轉換開關通常是非常可靠的,但潛在問題是它們沒有預設旁路,所以不可能對其進行維護,及時在某個點排除故障。

圖6

一個可能的解決方案如圖6所示。因為UPS系統現在被當作N+1設計的冗余,每個UPS能夠由一個獨立的,體積更小的自動轉換開關負責。這樣一來,價格未免會更貴,但并非這樣不可,因為每個自動轉換開關容量更低。在一個高可靠性的數據中心電力系統中,自動轉換開關冗余單元增加的成本往往被視為合理支出。

同理,在圖6中,機械系統可以被分為兩部分并且分別由兩套自動轉換開關負責。這要求冷卻系統也被分為兩部分(或者甚至是更理想的情形,分成三部分而且由三套自動轉換開關負責)。這部分內容圖示里沒有,但它要求冷卻系統里配備有雙配套(雖然體積要小些)機械交換機以及其它一些可能的雙配套元件。和電子備份不同,冷卻系統冗余體積可能會小些,在局部故障時,能夠在一段時間內把溫度維持在允許的范圍內。當然,溫度會上升,但是查閱ASHRAE TC 9.9 Thermal Guidelines這一文檔就能確定,在不造成實質傷害而且也不會被取消保修權利情況下,這些硬件能夠在比建議的溫度高很多的環境里運轉好幾天。所以,即使是在N+1設計中,分離冷卻系統也是對元件冗余的高昂投資進行保護的一個好辦法。

UPS冗余和維護旁路

圖7

數據中心電力設計的另一個難題是UPS旁路在主母線上。所以要對UPS主連接進行操作時,就需要把整個冗余UPS放到旁路,并讓數據中心在市電系統上運行。但這并不是一個明智的做法。要在UPS上進行“大動作”,UPS的內部維護旁路是不夠的。外部的“全方位”旁路,如圖7所示,會讓UPS和它的變壓器完全處于電力鏈之外。這樣的話,旁路就能完全打開并在需要的時候運轉起來。

小型斷路器

圖8

圖8所示的N+1設計的UPS,它包含了一個非常隱秘的單點故障缺陷。這個冗余設計的問題在于,如果耗電量沒有得到適當監控,冗余設計可能會被加載超出其預計容量的負荷。如果沒有控制好電源,更有可能發生的是,電源系統的三個階段會嚴重失衡,其中一個階段承載了不正常比例的負荷。不管發生上述哪種情況,容易導致冗余UPS終止對一部分正常負載的支持,甚至在大家都沒意識到之前。如果未來擴展模塊已經有了預規劃,那么在一段時間內有意使用冗余容量也不是稀奇的事。這不過是因為,即使電力供應加大了,但是增加模塊的資金并沒到位。

圖8,UPS系統由3個625kVA(功率系統為9的562千瓦)的UPS模塊組成。旨在讓UPS能夠支持高達1250kVA或1124千瓦的負荷。每個UPS通常只承擔三分一負荷。但其中任意兩個UPS能夠在第三個UPS發生故障或關閉時隨時承擔起總負荷量的一半。但是斷路器將在現行電流安培數值下運轉。而且,除非標明“100%額定”(這個設計中只有一個符合條件),斷路器的響應設定只會設計成持續處于額定跳閘電流的80%(根據代碼)一段時間后。超出規定時間值,最終將觸發斷路器,關閉電源。

在這個設計中,標成紅色的部分是兩個潛在的故障點。斷路器B的跳閘額定為2500安培,或是持續狀態下的2000安培。不過,我們要把注意力集中在位于自動轉換開關上游的斷路器A,因為斷路器B雖然有可能出于下文即將談到的原因導致過載,但其過載可能性大大降低了。

斷路器A在主電源鏈上,額定持續負荷功率是1440安培(1800X80%)。不過,只要兩個UPS模塊以最大容量運轉就會使電流功率至少會升到1504安培(這還只是計算了UPS容量,并未考慮進用電效率損失)。如果負荷接近設計容量,即使這種情況只發生在一個失衡階段管上,斷路器A也會跳閘,切斷電源并把負荷轉移到發電機上。這里出現了同樣的單點故障缺陷,甚至前面提到的其它故障。

一個似乎顯而易見的情況怎么會發生在專業工程師的設計作品中呢?答案是:兩重性。第一點,斷路器尺寸選擇首先要考慮到幾個因素,包括設備廠商的建議和代碼問題。但接著,工程師可能會一頭扎進調配斷路器、研究故障電流(短路)這個復雜棘手的關鍵性任務中,導致“只見樹木,不見森林”。讓同伴對自己的復雜設計進行檢查絕對是個好主意。

令人困惑的設計圖

圖9

圖9的設計,包括了完整的2N冗余電力系統,2N冗余UPS系統,以及雙路饋電箱輸送。正常和冗余路徑分別用藍色和綠色表示。旁路用紫色表示。通過這種方式,把電路板的缺陷掩飾了起來,但我們從紅色高亮部分可以看出UPS路徑的單點故障。盡管為了支持數據中心而在重復設備和開關設備上進行了大筆投入,但結果是數據中心完全依賴一個電力母線和一個斷路器。使情況更糟的是,關鍵路徑上的斷路器是旁路電路板的一個組成部分,所以是電驅動的。因此,對于正常跳閘和控制電路發生問題這兩種情形同樣存在隱患。

圖10

重新簡單畫過后(圖10),該電路板不僅高亮顯示出要確保電力,UPS,轉換開關及輸送系統的冗余所花費的大量努力,而且指出了該硬件對一個斷路器的依賴性究竟有多大。

圖11

圖11顯示了在2N電力設計中現今越來越普遍的輸送方案。有了2N系統,沒有理由再把電力并入單一輸出母線,因為現在幾乎所有的運算硬件都是雙核的,一個核發生故障,仍能依賴另一個核保持運轉。單核設備獲取保護的方式可以是,利用本地機架安裝的靜態轉換開關(STSes),或者,如果偏好使用“帶掛式”,可以在UPS輸出饋電口之間安裝一個大型的STS。如圖中所示。(許多人把大型STSes看作是另一個潛在的單點故障而不再使用。其實這只是偏好問題。)不管怎樣,對于想要實施全面冗余保護的項目來講,這只會占用總體投入很小的一部分。

檢查設計,仔細測試

冗余代價高昂。只有當管理層做出決定,認為在額外硬件和空間上的貨幣投入換來持續可靠的數據中心運轉是值得的,冗余才會是合理的。但單有冗余可能只會提供安全感假象,因為設計本身的單點故障可能沒有被排除,從而否定了最初的目的和價值。設計是復雜的工作,因此總會有疏忽失察發生。在對重復設備進行大幅投入之前,能夠以全新的視角對冗余設計進行檢查是很重要的。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 麻阳| 肥东县| 鸡泽县| 遂宁市| 镇雄县| 河东区| 高平市| 瑞昌市| 湖州市| 古交市| 达孜县| 齐河县| SHOW| 咸丰县| 长岭县| 满洲里市| 永平县| 普陀区| 靖远县| 汉源县| 若羌县| 张北县| 武夷山市| 通江县| 太仆寺旗| 洞头县| 瓦房店市| 灵寿县| 吴忠市| 越西县| 青神县| 余干县| 静乐县| 秦安县| 黄浦区| 峡江县| 惠安县| 乌拉特后旗| 昌图县| 醴陵市| 获嘉县|