了解數(shù)據(jù)中心設(shè)計中的三大最重要的因素,有助于幫助您企業(yè)更順利的完成數(shù)據(jù)中心設(shè)計的起草過程。而將本文作為正確確定您企業(yè)數(shù)據(jù)中心業(yè)務(wù)需求的參考借鑒指南,則有助于您企業(yè)從一開始就得以最大限度地提高整體數(shù)據(jù)中心的性能,稍后的避免重大升級。
幾大基本因素推動了數(shù)據(jù)中心的設(shè)計要求和成本。在制定預(yù)算和草擬數(shù)據(jù)中心的設(shè)計藍圖之前,需要對這幾大基本因素有相當正確的把握。而如果不這樣做的話,很可能會導致數(shù)據(jù)中心正式投入運營后的相關(guān)問題。
在數(shù)據(jù)中心已經(jīng)投入運行后才來修復錯誤是相當具有挑戰(zhàn)性的,而且其成本代價昂貴,在操作上也具有一定的風險性。而如果企業(yè)數(shù)據(jù)中心的設(shè)計構(gòu)建團隊能夠在開始階段就參考了本文作為其數(shù)據(jù)中心設(shè)計指南,以正確的確定需求,并且其設(shè)計符合現(xiàn)代行業(yè)標準和實踐方案的話,則在數(shù)據(jù)中心建成運營后的多年內(nèi)都不必實施重大升級。
在數(shù)據(jù)中心的設(shè)計中:三大最重要的因素分別是可靠性水平、增長潛力(包括正面或負面的)以及硬件流失率或更新率。
確定真正的IT可靠性需求
企業(yè)的每一名員工都認為他們各自所操作運營的系統(tǒng)和應(yīng)用程序是關(guān)鍵性任務(wù),但實際的衡量措施則是,如果他們的系統(tǒng)和應(yīng)用程序在任何時間發(fā)生停機中斷,會給企業(yè)組織帶來怎樣的后果。如:系統(tǒng)的停運可能讓企業(yè)暴露于安全性隱患中,甚至造成員工生命財產(chǎn)或企業(yè)的一些其他資產(chǎn)面臨嚴重的風險,或者也可以拿企業(yè)或?qū)⒚媾R的財務(wù)和聲譽方面的損失來進行衡量。
停機中斷的影響應(yīng)該基于其持續(xù)時長進行量化:十五分鐘,半小時,一小時,兩小時,四小時,八小時或更長時間。這警告數(shù)據(jù)中心的設(shè)計師們要在數(shù)據(jù)中心的設(shè)計中包括多少冗余,并允許企業(yè)組織能夠?qū)⒖煽啃猿杀九c潛在風險進行比較。
通常,遵循Uptime Institute的Tier IV嚴格正常運行時間水平的操作運營人員們并沒有完全理解這在數(shù)據(jù)中心的設(shè)計復雜程度、資本成本和運營支持方面到底意味著什么。在大規(guī)模的數(shù)據(jù)中心,Tier IV是合理的,但其對于整個數(shù)據(jù)中心的操作運營空間而言可能不是必要的。考慮將設(shè)施分區(qū),具有較不重要的功能的設(shè)施通常在Tier III或甚至Tier II區(qū)域中。
在進行任何設(shè)計之前,對于系統(tǒng)的關(guān)鍵性逐一進行現(xiàn)實性的評估,應(yīng)該是實施任何數(shù)據(jù)中心設(shè)計的第一步。有了這些信息,并了解了驅(qū)使數(shù)據(jù)中心相關(guān)系統(tǒng)進行實際分類的要素,才有助于數(shù)據(jù)中心設(shè)計師們確定最合適的且符合成本效益的設(shè)計建造方法。
即使該設(shè)施的設(shè)計具有統(tǒng)一的冗余和可靠性目標,但圍繞著正常運行時間做出設(shè)計決定的過程將幫助優(yōu)先考慮哪些系統(tǒng)在實施主要中斷恢復過程中的需要得到重點注意。
與增長預(yù)測的相關(guān)問題
盡管云服務(wù)為數(shù)據(jù)中心新機柜的空間不足的難題帶來了一定的緩解,但許多企業(yè)組織仍然需要保持對于其關(guān)鍵計算的直接控制。數(shù)據(jù)中心規(guī)劃指南應(yīng)包括現(xiàn)場搬遷和增量增長等方面的注意事項。在經(jīng)歷了服務(wù)提供商的成本和/或性能問題困擾后,部分企業(yè)組織又開始逐步將操作運營撤回到自己的數(shù)據(jù)中心。
而使得預(yù)測變得更加具有挑戰(zhàn)性的是,功率、熱負載和空間經(jīng)常會獨立增長,即使IT設(shè)備機柜數(shù)量下降了。較小的IT硬件通常意味著垂直規(guī)模的減小,但這通常使硬件更深。現(xiàn)在,標準高度機柜的深度必須為42英寸至48英寸(1060至1200毫米),而不是傳統(tǒng)的36英寸(900毫米)。數(shù)據(jù)中心需要更寬的通道用于在機架和設(shè)備中操作。現(xiàn)在的機柜比傳統(tǒng)機柜寬24英寸(600毫米),以適應(yīng)電纜密度的增加,以及雙電源板和電源線的增加,并且不會阻塞排氣空氣流量。當前,整個數(shù)據(jù)中心業(yè)界所推薦的標準是30英寸(760毫米)寬。即使機柜數(shù)量實際并沒有增長,機柜深度和寬度組合的增加也將需要更多的占地面積。
打包到機柜中的IT硬件越多,以及從每款設(shè)備中所獲得的性能越高,就將需要消耗越多的功率,同時也就會有越多的熱密度需要越多冷卻處理。虛擬化和整合是數(shù)據(jù)中心這一設(shè)計指南變革背后的主要驅(qū)動力。密集操作需要更多空間用于不間斷電源,配電單元和空調(diào)設(shè)備,其中大部分現(xiàn)在都安裝在設(shè)備機架行內(nèi)。即使新建的方法不會增加總的建筑面積要求,但物理布局也將如此。
在進行兼并和收購的公司,以及突然獲得資助將主要計算系統(tǒng)注入設(shè)施的研究企業(yè)組織中,增長尤其難以預(yù)測。
在未來幾年里,不會有真正準確的增長性預(yù)測,但是對概率的實際評估將支持多年來支持模塊化設(shè)計的彈性規(guī)模化縮放。這種靈活性是衡量一處成功的現(xiàn)代數(shù)據(jù)中心設(shè)計的真正措施。
由于硬件的高流失更新率,一些企業(yè)組織開始維護自有的數(shù)據(jù)中心。而為了保持最佳的競爭性能,金融機構(gòu)具有短的硬件更新周期。學術(shù)研究機構(gòu)的大型研究系統(tǒng)的更新周期則沒有那么頻繁。任何企業(yè)組織機構(gòu)都可能由于各種原因而迅速變化細分。高速率的硬件流失更新需要數(shù)據(jù)中心快速和便捷地調(diào)整容量,這通常是一個人工手動的任務(wù)。操作運營空間、電力功率和冷卻 需求的大規(guī)模且頻繁波動增加了主機設(shè)施的費用賬單。
數(shù)據(jù)中心的硬件流失更新率很容易基于其操作運營歷史實施量化。這一信息顯著影響了數(shù)據(jù)中心設(shè)計中內(nèi)置的靈活性程度。運營操作人員需要及時獲取更新信息,以支持不斷變化的計算需求,保持能源效率并最小化能源成本。
電源功率和熱負載
一旦設(shè)計人員遵循設(shè)計指南了解了基本要求,就可以從電源功率和熱負荷開始來建立實際參數(shù)了。
避免操作空間每平方英尺過度的功率分配——今天的數(shù)據(jù)中心在整個空間都是統(tǒng)一的。按照平均值進行設(shè)計在一些地方會產(chǎn)生容量不足的情況,而在其他一些地方則又會造成過度配置,以及如果整個設(shè)施裝備有最大預(yù)計負載,則又會造成不必要的成本消耗。
按機柜開發(fā)負載估計。現(xiàn)有的機柜負載很容易從智能電源板或通過電工的鉗位儀表上獲得。來自鉗位儀表的電路負載測量是瞬時的,并且不是隨時間的推移獲得的平均值,但仍然提供了相對的機柜工作狀況的良好指示,設(shè)計者可以從中進行規(guī)模大小的判斷。
建筑物的影響
數(shù)據(jù)中心建筑在您可以接近理想的數(shù)據(jù)中心設(shè)計的距離方面起著不可避免的作用。即使是綠色環(huán)保的建筑也有其實際的限制。但是,當您必須使用現(xiàn)有的結(jié)構(gòu)時,建筑條件往往會對設(shè)計和成本造成嚴重的破壞。現(xiàn)有機柜列中斷了機柜行,導致空間布局效率低下。不規(guī)則的墻壁塑造了布局,降低了地板空間的效率。樓板可能需要結(jié)構(gòu)加固,或需要更寬間距的機柜行來分散負載。板到板的高度可能不允許升高的地板以輸送空氣。操作機房的高度決定了設(shè)計是否可以使用回風室,或者是否有足夠的空間來安裝協(xié)調(diào)的架空基礎(chǔ)設(shè)施。如果沒有高架地板,電源,電纜橋架,冷卻和照明管道都會產(chǎn)生開銷——甚至可能會產(chǎn)生沖突。數(shù)據(jù)中心的窗戶是一個主要問題,應(yīng)該在數(shù)據(jù)中心建筑規(guī)范中刪除或覆蓋。貨運電梯通道必須是強制性的,因為其是搬遷移動昂貴設(shè)備而不會遇到陡峭的樓梯或尖銳墻角障礙的明確路徑。當然,除非數(shù)據(jù)中心建筑物具有足夠的電力,并能夠獲得通用運營商的通信支持,否則其成本將飆升,而設(shè)計方面所帶來成本優(yōu)勢將永遠是有限的。
數(shù)據(jù)中心必須始終有空間以用于冷卻塔,熱交換器和發(fā)電機。這些大的設(shè)備單位也會產(chǎn)生噪音,設(shè)計師必須采取相應(yīng)的措施,以確保這些噪音不打擾到在建筑物或近鄰的人員。
數(shù)據(jù)中心的設(shè)計沒有一刀切的解決方案。甚至容器集裝箱化的模塊在一定程度上也是定制的。但對于企業(yè)專門建立的數(shù)據(jù)中心而言,大型投資應(yīng)該特別進行慎重的考慮。在建立預(yù)算,確保正式破土動工之前,務(wù)必遵循此數(shù)據(jù)中心設(shè)計指南。
新的數(shù)據(jù)中心指標衡量能源,冷卻效率
新的數(shù)據(jù)中心指標超越了電源使用效率的范疇,以確定基礎(chǔ)設(shè)施的總體效率,注重能源和冷卻。盡管電源使用效率指標具有其優(yōu)勢,但并不總是足以完全優(yōu)化數(shù)據(jù)中心的效率。IT團隊需要更詳細的數(shù)據(jù)中心指標,包括電源和冷卻基礎(chǔ)設(shè)施以及計算系統(tǒng),以真正優(yōu)化數(shù)據(jù)中心。 作為朝著這個方向所邁出的一步,美國環(huán)境保護局在2007年發(fā)表了一份關(guān)于數(shù)據(jù)中心效率的報告,宣布了他們開發(fā)服務(wù)器能源之星評級的意圖——他們也確實這樣做了,盡管比預(yù)期晚了幾年。綠色網(wǎng)格組織在2010年發(fā)布了水使用效率和碳使用效率指標,雖然他們得到的關(guān)注度相對較少。在2016年六月,綠色網(wǎng)格組織宣布推出了性能指標(PI),一個著眼于冷卻標準的指標,并把它與能源效率進行整合。我們正在被大量數(shù)據(jù)中心的性能和效率指標所淹沒,但對于大多數(shù)IT團隊而言——即使對他們的電力使用效率(PUE)實施了定期跟蹤——仍然需要采取更先進的數(shù)據(jù)采集和分析能力的相關(guān)度量步驟。對于那些準備使用更復雜的優(yōu)化工具的企業(yè)而言,有一些關(guān)鍵性的考慮因素。
擴展數(shù)據(jù)中心度量的目的
通過關(guān)閉閑置僵尸服務(wù)器、整合和虛擬化的應(yīng)用程序或購買能源之星評級的硬件來節(jié)約能源是很常見的。但是,除非電力和冷卻基礎(chǔ)設(shè)施也進行了優(yōu)化,否則減少現(xiàn)有系統(tǒng)的負荷可能是非常困難的,并且將不會顯著提高能源效率。這意味著PUE會變得更糟。通過使用PUE作為基準,而不是跟蹤度量,可能看起來好像沒有節(jié)省能源,相關(guān)的投資和努力也是不值得的。企業(yè)的管理層預(yù)期他們的投資產(chǎn)生了一個較低的PUE,而對這個數(shù)字實際上意味著什么并沒有很好的理解。
而這就是其他數(shù)據(jù)中心衡量指標的價值所在了,例如綠色網(wǎng)格組織的數(shù)據(jù)中心能源生產(chǎn)力(DCeP)。 DCeP量化的是數(shù)據(jù)中心實際產(chǎn)生的有用的工作負載所消耗的能量瓦特數(shù)。DCeP度量允許用戶建立其有用的工作負載的定義。例如,在線搜索公司可能 將其有用的工作負載定義為完成的搜索數(shù)。而對于零售商而言,這可能是銷售的數(shù)量。 PUE仍然是必要的,但DCeP數(shù)字可能更容易被經(jīng)驗較少的人們所理解。雖然DCeP不是科學上準確的指標,但其提供了一種方法來量化您使用的能量所實現(xiàn)的實際效果。如果一組服務(wù)器幾乎沒有工作并且大多數(shù)時間都處在閑置狀態(tài),則它消耗最少的能量,需要最小的冷卻并且不會顯著影響PUE。但其仍然會消耗一定的能源。DCeP將對這一消耗進行顯示;其目標是最小化能量消耗并最大化有用的工作。對于處于領(lǐng)先地位的企業(yè)組織機構(gòu)來說,想要在他們所使用的每一瓦特功率中都能夠?qū)崿F(xiàn)真正有用的生產(chǎn)性計算,復雜的服務(wù)器可以提供遠遠超出CPU利用率的操作數(shù)據(jù),而更復雜數(shù)據(jù)中心指標則可以跟蹤結(jié)果。
但PUE和DCeP仍然是關(guān)注于能源效率和能源消耗減少的。使用它們可能會產(chǎn)生無法識別的后果,因為它們不會顯示為了節(jié)省能量而做出的損害數(shù)據(jù)中心設(shè)備冷卻和可靠性的負面影響。新的PI度量標準,對于具有超過一般數(shù)據(jù)收集技能、以及優(yōu)化其操作的每個方面的能力的管理人員們最為有用。
PI測量的四個級別
有四個級別的PI測量。1級是基本的,不需要使用復雜的設(shè)備。2級需要更徹底和準確的測量。3級和4級增加了計算流體動力學(CFD)空氣流模擬,以提供性能的視覺圖像,并且能假設(shè)場景,觀察未來的能力和故障模式以及能量效率。 3級是正常建模。4級使用實際的詳細測量來校準CFD模型,作為其他檢查的準確基線。
使用擴展數(shù)據(jù)中心度量標準(如PI和DCeP)有三個要求:
1)跟蹤PUE;
2)定義在計算操作中什么工作構(gòu)成有用的工作負載;
3)獲得對于每臺機架所消耗功率和溫度的詳細測量。
PI通過組合PUE、IT熱依從性和IT熱適應(yīng)性來補充現(xiàn)有方法。后兩者分別基于ASHRAE推薦的和允許的熱封套。熱適應(yīng)性和彈性檢查冗余冷卻在正常和異常條件下的工作狀況。如果必須降低計算機機房的空調(diào)空氣溫度以滿足熱合規(guī)目標,則PUE可能增加。 PI度量的要點是知道硬件被冷卻的可靠性、設(shè)施的能效如何、以及一個條件如何影響另一個條件。決定距離想要達到的操作的最大值的接近程度,以及要所達到能效目標或PUE的目標。然后,測量實際條件,并將它們繪制在三角形圖表(也稱為蜘蛛圖)上,看看它們與您企業(yè)的目標有多接近。
圖1、蜘蛛圖是一種考慮多個指標以確定與目標的接近程度的方法。
現(xiàn)在,有幾種數(shù)據(jù)中心的指標,以最大限度地提高整體數(shù)據(jù)中心的能源效率方面的工作,包括每單位能量消耗的輸出和相對于能源效率的可靠性。對于大多數(shù)操作而言,堅持基本原理和跟蹤電源使用效率仍然是優(yōu)先事項。其他的指標也可以適當跟蹤,但PUE仍然是基礎(chǔ)。即使您企業(yè)還沒有準備好采取更為深層次的措施,但還是要了解并知道行業(yè)正在提出什么建議——如果您企業(yè)已經(jīng)確立了自己的相關(guān)節(jié)能目標的話。