提升數據中心電力系統可用性的10種方法

責任編輯：editor007 作者：litao984lt編譯 |來源：企業網D1Net 2016-07-13 23:26:18 本文摘自：機房360

數據中心采用一定的戰略，以確保能夠獲得清潔、持續的電力資源對于其IT系統而言是必不可少的。

曾幾何時， IT僅僅只是另一項重要的商業資源。但到了今天，IT已然成為了許多公司的業務。沒有了IT，大多數企業組織及哦股將無法為他們的客戶服務;與合作伙伴展開合作，開發新的產品或執行其他基本的業務功能。

其結果是，數據中心的可用性已經成為確保企業組織機構的市場競爭力和盈利能力的一個重要的先決條件。然而，盡管企業組織機構已經盡了自己最大的努力來確保數據中心系統的可用性，但他們仍然非常容易受到各種各樣的威脅。而其中最主要的是便是來自電力系統的影響問題。數據中心的健康運營需要依靠持續的清潔電力供應。然而，從電源系統設計的哪怕一絲一毫的缺陷到整個電網發生的故障，都可能導致即使是最現代和先進的數據中心陷入癱瘓。

慶幸的是，企業組織可以通過采取對他們的業務流程和電力系統管理經過驗證的改變辦法來顯著的減輕其電源相關的停機時間。在本文中，我們將與廣大讀者朋友們共同探討關于如何建立和維護一個高度可用的數據中心電力基礎設施的10項尚未被業界充分利用的最佳實踐解決方案。

業務流程管理實踐方案

1、打破企業組織機構間的壁壘

在大多數公司，通常都是由兩個獨立的部門負責數據中心的管理：IT部門和基礎設施部門。IT部門負責監控數據中心的計算機基礎設施與應用程序，該部門通常是向所在企業的首席信息官報告。而基礎設施部門則負責處理數據中心的能源和冷卻方面的要求，該部門通常是向所在企業的首席運營官或負責公司不動產方面的副總裁報告。長期以來，這種企業組織結構的劃分已經成為大型企業的規范常態，但其往往會導致負責維持工作負載的人員與負責提供電力資源的人員之間的溝通不暢。

從歷史上看，企業IT和基礎設施部門之間的協商不充分并為對數據中心的可用性構成太大的危險。直到最近，即使是在最大型的數據中心，其工作負載和功耗要求也是較為適中的，其IT管理人員們可以安全地重新安置服務器和工作負載，而不會對電力或冷卻系統帶來太大的壓力。

然而，今天的大規模的服務器基礎架構正在變得越來越大、更為耗電、同時也就會散發更多的熱量。此外，刀片式服務器和虛擬化的廣泛采用——在簡化管理，并提高服務器利用率的同時，也大大增加了計算密度和由此產生的熱量——也進一步的加速了上述這些趨勢。

而在今天，在沒有咨詢基礎設施工程師的前提下，服務器的蔓延，數據中心的散熱冷卻，工作負載或硬件的遷移都可能導致電力設施的超負荷或HVAC系統的不堪重負，這可能反過來進一步降低關鍵系統的運行效率。

然而，不幸的是，雖然最近幾年以來數據中心行業本身已經獲得了相當顯著的發展，但數據中心內部的企業組織結構卻并沒有。其內部的IT和基礎設施部門仍然是兩個相關獨立的部門，且相互之間在重要的業務事項方面往往缺乏充分有效的溝通。

解決方案：為了盡可能的減少與電力相關的停機時間的發生，企業組織應該就IT管理人員和基礎設施管理人員在對數據中心的實現修改時應該如何以及何時進行相互協商的程序建立明確且標準的文檔記錄。

為了進一步推動IT和基礎設施部門之間的有效溝通，企業組織也應該考慮改變自己的組織結構圖，使得IT和基礎設施兩個部門都向相同的CXO級的高管報告。這可以通過在兩個部門之間設置一套通用的業務期望目標和共同的報告結構，使得IT和設施管理人員之間的互動變得更容易。

圖1：在經過優化的企業組織架構方案中，IT部門、基礎設施部門和企業高管之間公開分享信息，并做出協同做出決策。

2、著眼于長期價值，而不是短期成本

在許多公司中，當涉及到數據中心的建設或改造翻新時，短期的投入成本和企業長遠的價值二者之間的優先級別總是沖突的。企業的高級管理人員們通常都要督促負責數據中心建設的人員務必要盡可能的壓低成本，縮短完工時間。其結果是，在數據中心的建設項目中所涉及到的供應鏈參與者、工程師、承包商和項目經理們往往都是基于誰的報價最低、并承諾最快的設備交付，而做出設備的選擇決定。

但是，真正負責運營數據中心的工作人員們則有著一套不同的優先級，他們往往更為看重公司的長期利益。最低報價的硬件確實能夠在數據中心的初期建設方面節省成本。但如果這一價格水平的設備其實并不符合原數據中心建筑設計定義的操作規范的話，隨著時間的推移，其最終將以降低運營效率和正常運行時間的形式來讓企業組織付出昂貴的代價。

解決方案：當對一處數據中心的建設或改造翻新項目進行審查和決策時，企業的關鍵執行人員務必應該仔細審查采購決策，確保一線的項目管理人員和承包商并沒有以犧牲企業的長期利益為代價，來換取短期的成本壓縮。他們也應該清楚明確地傳達嚴格遵守數據中心原始設計操作規范的重要性，即使這意味著在施工過程中的花費會更多一點。

企業組織機構也需要為其數據中心設施建設的管理人員們設定目標，而不要過于把重點放在短期成本的降低壓縮方面。為其采取了一套符合企業長遠利益的、進而減少了對于數據中心設備壽命的可用性帶來不利影響的采購方法而獎勵其數據中心建設團隊。

3、采用標準化設施的工作流程

現如今的IT部門正在越來越多地利用標準化的最佳實踐框架，如信息技術基礎設施庫(ITIL，參見www.itil-officialsite.com)來幫助他們提高他們的工作流程系統化。ITIL是由英國政府在上世紀80年代提出的，其定義了特定的、有效的、可重復的方法來處理事件管理、服務臺操作和其他常見的IT任務。那些遵循ITIL指南的企業組織機構大都充分享受到了更好的IT資產控制，進而使得他們能夠更容易地診斷和解決IT故障。

不幸的是，一些企業的基礎設施部門采用了嚴格、統一的維護流程，如那些由ITIL定義的流程，而不是依靠特設的程序和基礎設施管理人員們所積累的專業知識。因此導致了數據中心電源和冷卻系統的維護標準往往較低;或與IT系統不太一致，進而導致了停機時間的增加。

解決方案：雖然基礎設施流程框架作為ITIL尚有待開發，但基礎設施部門可以而且應該采取相應的措施，以制定他們自己的標準化、文檔化的流程。按照一致的，可重復的方式進行必要的活動，可以顯著降低功率和冷卻故障的可能性，同時提高基礎設施技術人員的工作效率。

4、維護一個基礎設施變更管理數據庫

航空工程師和專業的維護人員們早就了解到了強有力的變更管理流程的重要性。在一架既定的飛機上對于其所進行的所有維護程序都保持一份全面和準確的文檔記錄，對于確保飛機的安全飛行是至關重要的。此外，一旦發生事故，維修記錄可以為在第一時間找出造成潛在的災難性的系統故障的根本原因提供重要的線索。基于類似的原因，ITIL特別側重于強調在一個全面變更管理數據庫(CMDB)對于IT資源所有變化的仔細跟蹤。在CMDB中的信息可以幫助 IT員工們更有效的解決服務中斷，而且在緊急情況下，對于確保對于重要數據的及時訪問是至關重要的時候特別有價值。

然而，不幸的是，僅僅只有很少一部分的企業基礎設施部門維護了一套CMDB。其結果是，關于其數據中心的不間斷電源系統(UPS)或關于當前哪些服務器或其它相關負載正在被處理等等諸如此類的唯一記錄都只存在于管理人員的頭腦里。而一旦這位管理人員離職或退休，這些寶貴的紀錄便隨之離開了，這無疑會使得數據中心被暴露在不必要的停機風險之下，同時電源/冷卻設備受干擾后也將需要更長的恢復時間。

解決方案：企業數據中心的基礎設施部門應建立并嚴格維護他們自己的CMDB。ITIL的指導方針為這一舉措提供了一個有用的起點，企業組織也可以利用各種專門的CMDB軟件應用程序。

5、評估電力系統組件時，要考慮易于維修性與可靠性等

人們經常會混淆了“可用性”和“可靠性”這兩大概念。然而，事實上，這兩個術語有相關的，但彼此又有著不同的含義。

可靠性——其是通過平均系統故障間隔時間(mean time between system failures，MTBF)來測量的，而其本身也是可用性的兩大關鍵組成部分之一。另一大關鍵組成部分則是當發生故障失敗時的平均修復間隔時間(Mean Time To Repair，MTTR)?？捎眯缘挠嬎愎饺缦拢?/p>

可用性= MTBF /(MTBF + MTTR)

一臺服務器、交換機或供電設備可能是高度可靠的，因為其很少出現運行中斷停機;但卻并不一定是高度可用的，因為其有著很高的平均修復間隔時間。然而，當評估系統的可用性時，IT部門往往完全忽視了維修時間。

為了搞清楚對于數據中心的這方面的可用性的疏忽或將導致的使得數據中心陷入的具體危險。我們可以假設一種情況：一家公司試圖決定在其新的公司總部使用普通熒光燈泡與更復雜的LED照明系統之間做出選擇。該LED系統是高度可靠的，因為它很少遇到機械問題。而一旦發生問題時，如果備用的LED燈泡沒有存放在本地庫存或無法從本地供應商處及時獲得，那么，更換這些燈泡將會是一個相當耗時的過程。而另一方面，如果采用普通熒光燈的話，其MTBF大約是6000小時，這使得其可靠性顯著降低。但是，更換普通熒光燈的過程通常是一個相當快速且成本相對便宜的過程，因為普通熒光燈是一款標準化的產品。故而當兼顧考慮到了可靠性和平均修復時間之后，該公司決定采用普通熒光燈泡實際上可能為其提供較之LED系統更好的可用性。

同樣的邏輯也適用于電力系統的基礎設施組件。設計用于長時間無間斷平穩運行的系統，如果對其進行修復是一個耗時的操作過程的話，那么其可能不會提供高可用性。

解決方案：當評估電力系統的組件時，企業組織應該尋找那些既有高度可靠性，又能夠快速修復的產品。特別是，企業組織應該仔細研究一款既定電力系統的制造商對于其產品提供服務的速度和有效性。該電力系統的制造商雇用了多少服務工程師，他們在哪里辦公，以及當您企業的數據中心站點發生中斷事故后，他們將如何迅速地到達現場?他們的服務支持是24/7全天候的嗎?服務工程師們對于制造商的產品了解熟悉程度如何?如果他們不能解決某個問題，他們是否有權限訪問升級的資源呢?如果其制造商不能調度安排經過了嚴格培訓的服務支持人員及時進行故障修復的話，那么即使最完善和最可靠的電力系統，最終可能只會有糟糕的可用性。

企業也應尋找那些具有冗余的，模塊化設計的產品。如果一款模塊化產品在這種系統中發生故障，那么其他模塊將會自動補償，增加了父單元的MTBF。此外，更換的模塊往往會比傳統的組件更容易獲得，而且其過程通常也是很容易的，只需要一兩名技術人員能夠快速安裝，往往無需制造商的協助。其結果是降低了MTTR，從而帶來了更好的可用性。

6、實現企業范圍內的監控和主動診斷

與流行的看法相反，很少有系統故障沒有提前發出過警告，除非是在發生了災害的情況下。僅僅只是系統所發出的警告太常被忽視，因為在本質上其是監控系統的自然反應。

例如，假設一款UPS在某個深夜發生了故障，進而造成了您企業組織數據中心運行中斷。那么很可能的情況則是，UPS已經在故障發生前的幾天或幾小時已經提前發出過相關的暗示或警號信號。例如，也許UPS或其電池已開始過熱或出現性能下降。然而，如果數據中心的基礎設施管理人員沒有監測到這些性能指標，他們可能也不知道即將發生的故障，直到其最終發生。

解決方案：最新的企業管理產品可以幫助企業監控和主動管理涉及到關鍵任務的設備，包括電力設備，環境和生命/安全系統。但是如若沒有經過事先的細致咨詢就匆忙上馬，那么，即使是最好的軟件也沒有什么太大的幫助。因此，盡管數據中心選擇部署電力系統監測和診斷軟件是一個重要的開始，但其基礎設施部門也必須確保他們有嚴格的工作流程提前為即將安裝的軟件進行咨詢，并迅速響應危險的跡象。

圖2：最新的企業管理應用程序為企業的IT和基礎設施部門提供了一款單一的、基于Web的視圖，來幫助他們掌握數據中心的功耗和散熱情況。如果電力系統元件存在能耗和溫度超過閾值的危險，其還可以主動提醒運營人員和設備管理人員。電力系統實踐

7、創建整體性的應急計劃預案

每一家數據中心對于外部供應商的電力、燃料和水資源都有著相當關鍵的依賴關系。而每一家這樣的外部供應商實際上都有可能在某個時間點上發生服務中斷。而唯一的問題是，您的數據中心是否已經為其做好了充分的準備，以應對其隨時可能的發生。

大多數數據中心都有相應的應急計劃，以處理電力或水的損失。在停電的情況下，這些計劃通常涉及到利用柴油發電機，直到恢復供電服務。但是，對于大多數的企業數據中心而言，在其所儲備的24至48小時的柴油供應耗盡用完之前，電力供應仍未恢復又當怎么辦呢?

這正是在美國東北部和加拿大地區的許多組織在8月2003日，當一個大停電，估計有5500萬人沒有權力的情況下，幾天。許多公司，包括一些主要的金融服務提供商，在電力恢復之前均已經耗盡了他們柴油發電機的儲備燃料供應。然而，不同于大多數的同行，金融服務提供商有大量的現金儲備。因此，盡管面臨柴油需求的暴漲，這些金融服務提供商仍然能夠獲得額外的燃料，而其他公司則爭先恐后地收集資金或安全信貸。

解決方案： IT和基礎設施部門對于許多或將造成數據中心運行中斷的問題具有直接的控制。但是，即使是精心設計和精心構筑的基礎設施，如若存在超出了企業的控制問題也是易受攻擊的。因此，企業組織必須全面考慮可能會影響他們的數據中心正常運行的外部性問題，并仔細權衡成本和效益，并提前做好應對的準備。

例如，提前儲備足夠五天的柴油和水資源，以供給給冷卻設備，而不是僅僅只夠兩天的儲備，其成本可能更昂貴的。但其成本顯然要比停機三天所造成的損失的成本更低。而斷電超過48小時的可能性要比您所想象的大得多：例如，當一場巨大的冰風暴在2008年12月襲擊新英格蘭和紐約州北部地區時，超過10萬的客戶在近一個星期后仍然沒有電力供應。

因此，當涉及到應急計劃的制定時，“做最好的希望，做最壞的打算”無疑是一套健全的經驗法則。

8、采用適合您企業需求的電力系統拓撲結構

電力系統的拓撲結構對采購成本、運營費用、可靠性和平均維修時間有著重要的影響。對于一處既定的數據中心，您所設計的冗余越多，那么在其建造和運行過程中您企業所花費的成本也就會越多，但其也能夠更快地從中斷中恢復。

國際正常運行時間協會(The Uptime Institute)是一家專為企業數據中心的業主和運營商服務的獨立的研究機構。該機構為數據中心的關鍵任務設施定義了四項電源系統拓撲結構來說明這一原理：

較之Tier III或Tier IV拓撲，一個Tier I或Tier II的拓撲相對便宜，但同時也提供了較少的可靠性和正常運行時間。

解決方案：當涉及到選擇一款電力系統的拓撲結構時，并沒有唯一正確的答案。企業組織應將他們的特殊業務情況和需求與其電力系統的拓撲結構相匹配。

例如，一個Tier II的拓撲結構對于托管了一款Web應用程序的一處數據中心可能是良好的，假設多個備份站點是可用的，那么用戶如果偶爾會遇到幾秒鐘的延遲的話，他們不太可能會過多抱怨。然而，如若是在華爾街，哪怕僅僅幾秒鐘的延遲所可能導致的損失則也是以數百萬美元計算的。因此，一處托管了金融交易應用程序的數據中心，選擇采用一個Tier IV拓撲結構將是明智的。

9、更換過時的舊設備

電力異常可能會影響到敏感電子設備的運行，并包括組件中斷，可能會對整個企業的業務產生重大影響。

數據中心一般利用不間斷電源設備(UPS)來防止電源異常。這樣的系統能夠清潔“臟”的電力系統，并在供電中斷期間提供應急電源。然而，直到最近，相對于其功耗而言，可用性最高的雙轉換UPS 系統往往是效率最低的，反之亦然。因此，那些希望能夠盡量壓低運營成本的企業組織可能已經部署實施了節能的UPS產品，這類產品交付低于平均水平的可用性;而那些更關注正常運行時間的企業組織則部署實施了高可用性的UPS系統，同時也浪費了電力資源。

解決方案：今天，已充分市場充分驗證的成熟的UPS技術使得企業組織能夠在一款單一的設備中同時享受到高可用性和高效率。對于那些使用較舊的不間斷電源技術的企業組織而言，他們應考慮升級到這種新一代的設備，以便能夠提高應用程序的可用性，并同時降低總擁有成本。

10、審查您企業數據中心的電力系統

大多數數據中心管理人員都認為，他們對于其電力系統的交付能力是清楚知道的。然而，事實上，真正能夠做到這一點的數據中心管理人員是少之又少。這是因為大多數企業并沒有定期對他們的電力基礎設施進行審計。

只有通過審核電力系統，及您企業組織用來支持該系統的操作流程，您才能夠建立您的數據中心的最大負載參數。當您需要把重要的新的IT工作負載投入生產，但卻因為電力不足而無法做到時，僅僅靠依托產品規格和承包商的承諾會讓您企業暴露在容量能力不足的困難風險之下。

解決方案：定期徹底的審核您數據中心的電源系統。

結論

在今天，維持一處大型的、散熱量大且復雜的數據中心的可用性比以往任何時候都更為困難，也更具重要的戰略性意義。特別是考慮到當前的全球經濟一體化，可持續發展的壓力和普遍的人口老齡化所導致的勞動力減少的大背景之下。企業組織已經利用了各種技術和流程，以確保關鍵任務的IT 系統能夠獲得清潔，可靠的電力資源供應。然而，大多數企業組織可以通過采用本文中所討論到的相關解決方案來進一步減輕他們數據中心的停機時間。誠然，上文中所提到的某些方案可能需要您企業數據中心增加在新的硬件或軟件方面的投資。但其實許多都如同讓IT和基礎設施人員互相有效溝通一樣簡單。

當然，在本文中所討論的10項最佳實踐解決方案并沒有窮盡企業組織可以用來保護他們的數據中心，防止出現電力系統相關的服務中斷的全部方式。而那些嚴重依賴于其數據中心的可用性的企業組織應該不斷密切的關注和研究最一流的數據中心前沿技術和流程，并積極的采用這些前沿技術和流程。而在這樣的任務上所花費的時間幾乎總是以確保數據中心業務連續性的新的想法和思路的產生而給予回報的。

關于作者

本文作者Kenneth Uhlman PE博士是伊頓公司(Eaton Corporation)數據中心業務發展總監。在該公司，他主要負責伊頓公司的全球數據中心戰略。他專注于提高數據中心的效率，可用性和業務服務管理，包括IT和設施的融合。他擁有三項美國專利，是持有加利福尼亞州專業證書的工程師，并已榮獲眾多獎項，其中包括伊頓公司的Pinnacle Award和GE的Musketeer Award。他擁有鳳凰城大學高級研究學院組織發展博士學位和北達科他州立大學的電氣與電子工程學士學位。他的論文題目是《關鍵任務基礎設施中的企業變革和協同合作》，您可以通過[email protected]與他聯系。

關鍵字：數據中心可用性

熱文

高端訪談更多

CIO：全數字化時代，你做好轉型準備了嗎？

國藥國際CIO馮偉：數字化轉型要打破信息化建系統的固有思維

熱點專題更多

飛利浦商用顯示器:智能科技助力高效工作

企業出海

電子周刊

掃一掃
分享本文到朋友圈

當前位置：數據中心 → 行業動態 → 正文

提升數據中心電力系統可用性的10種方法

責任編輯：editor007 作者：litao984lt編譯 |來源：企業網D1Net 2016-07-13 23:26:18 本文摘自：機房360

數據中心采用一定的戰略，以確保能夠獲得清潔、持續的電力資源對于其IT系統而言是必不可少的。

業務流程管理實踐方案

1、打破企業組織機構間的壁壘

圖1：在經過優化的企業組織架構方案中，IT部門、基礎設施部門和企業高管之間公開分享信息，并做出協同做出決策。

2、著眼于長期價值，而不是短期成本

3、采用標準化設施的工作流程

4、維護一個基礎設施變更管理數據庫

航空工程師和專業的維護人員們早就了解到了強有力的變更管理流程的重要性。在一架既定的飛機上對于其所進行的所有維護程序都保持一份全面和準確的文檔記錄，對于確保飛機的安全飛行是至關重要的。此外，一旦發生事故，維修記錄可以為在第一時間找出造成潛在的災難性的系統故障的根本原因提供重要的線索?；陬愃频脑?，ITIL特別側重于強調在一個全面變更管理數據庫(CMDB)對于IT資源所有變化的仔細跟蹤。在CMDB中的信息可以幫助 IT員工們更有效的解決服務中斷，而且在緊急情況下，對于確保對于重要數據的及時訪問是至關重要的時候特別有價值。

5、評估電力系統組件時，要考慮易于維修性與可靠性等

人們經常會混淆了“可用性”和“可靠性”這兩大概念。然而，事實上，這兩個術語有相關的，但彼此又有著不同的含義。

可用性= MTBF /(MTBF + MTTR)

6、實現企業范圍內的監控和主動診斷

7、創建整體性的應急計劃預案

因此，當涉及到應急計劃的制定時，“做最好的希望，做最壞的打算”無疑是一套健全的經驗法則。

8、采用適合您企業需求的電力系統拓撲結構

較之Tier III或Tier IV拓撲，一個Tier I或Tier II的拓撲相對便宜，但同時也提供了較少的可靠性和正常運行時間。

9、更換過時的舊設備

電力異?？赡軙绊懙矫舾须娮釉O備的運行，并包括組件中斷，可能會對整個企業的業務產生重大影響。

10、審查您企業數據中心的電力系統

解決方案：定期徹底的審核您數據中心的電源系統。

結論

關于作者

關鍵字：數據中心可用性

精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

提升數據中心電力系統可用性的10種方法

相關文章

提升數據中心電力系統可用性的10種方法

網站地圖

聯系我們：

投稿信箱：