當一家數據中心的運行達到其極限時,其所屬的企業組織必然要作出一些重大的決定。花時間來為接下來可能會發生的任何狀況進行規劃,并考慮采取一些溫和的、且成本便宜的升級和調整方案措施。
無需徹底大修的前提下改善數據中心
很少有企業組織會熱衷于花費大量資金和時間來為他們的數據中心實施重大升級。一家企業組織需要認真考慮如何,甚至是否需要建立一處主要的數據中心的舉措。但是,在此期間,企業內部的IT團隊應該做些什么呢?重大決策的制定將需要時間,但基礎設施仍然需要保持運行。畢竟,企業業務的運行依賴于此。
這將IT決策者們放在了一個需要延長舊的數據中心的使用年限,并同時需要對數據中心的其他更大的問題進行梳理的位置。
為此,數據中心專家羅伯特·麥克法蘭專門撰寫了本文,以便為我們廣大讀者朋友們介紹數據中心企業組織所能夠采取的、同時又不會產生重大成本費用的相關措施。麥克法蘭尤其建議企業組織的數據中心將他們的目標瞄準那些尚未被充分利用的資源:數據中心的那些服務器是否被用來充分發揮了作用了呢?而借助電力供應,IT人員應該查看電池的平衡狀態。此外,在某些情況下,行內冷卻機組所使用的戰略可以緩解設施的冷卻問題。
另外,在本文中,來自TechTarget網站的斯蒂芬·畢格羅也同樣為我們分析了企業的IT團隊可以用來提高數據中心的性能,而無需投入大量的時間和資金的一系列的方式。例如,為一臺服務器的本地存儲添加固態硬盤,可以清除瓶頸并中止錯誤。而與此同時,可以以很小的成本安裝傳感器,而無需耗費太多的精力。
這些舉措并不會解決當一家數據中心在接近其效用的最后終點時,應該如何處理的更大的問題,但這些舉措確實能夠為企業組織規劃其未來的IT基礎設施贏得更多的時間。
對一處老舊的數據中心實施簡單的修復和升級
當您企業的數據中心耗盡了其空間,電力或冷卻資源時,您將需要做出一些困難的決定。而如果您企業的業務在未來幾年內可能會被遷移;或者關于您企業的某些計算最終將會轉移到云服務或托管站點的討論的話,那么,關于這些決定的商議就變得更具挑戰性了。這些決定是至關重要的,其絕不屬于那種您想要靠拍腦袋就匆忙做出的決定。畢竟,一家企業組織所做出的選擇,可能涉及到極其昂貴的資本支出和運營效率。
但是,盡管這些長期性的決定正在被思索和衡量,但企業內部的IT團隊仍然承擔著短期的負擔:他們需要保證數據中心的正常運行,而且還必須可靠地支持用戶。
那么,哪些措施才是現實可行的呢?哪些措施才能讓企業組織的數據中心以最小的投資實現獲益的最大化呢?而同樣重要的是,哪些措施會是最不具破壞性的呢?總之,您企業組織的數據中心如何才能找到最經濟、最有效的短期內的方法呢?
在本文中,我們將為廣大讀者朋友們介紹一套較為合理的策略,來幫助您首先對您數據中心進行梳理,然后逐步修復,最后再分階段實行的相關步驟。
1、移除不應該存在的設備
如果一家數據中心的運行已經達到其容量能力的極限了,那么,其IT工作人員可能會關閉并刪除那些無用的服務器。
下一步是質疑任何顯示了低利用率的設備的重要性。例如,也許其利用率僅為10%。那么,便可以看看這些設備是否可以被虛擬化。或者也許這些設備也可以被盡數銷毀。如果其支持一款單一的應用程序,而有一位用戶仍然認為其運作“良好”的話,那么,可能需要花時間來與之進行一次嚴肅的談話了。畢竟,當一處數據中心的運行容量已經達到其極限時,其已經完全沒有必要再容納不必要的設備了。另外,這些措施也能為數據中心進一步降低功耗帶來一定的效益。
當您在查看數據中心的硬件設備時,務必要清理硬件設備的空氣過濾器,并確保電纜沒有阻塞排氣通道。這些簡單的步驟幾乎沒有任何成本,但卻可以幫助您數據中心大大提高冷卻效率,延長設備的使用壽命。如果您的數據中心存放有廢舊紙箱或其他不必要的東西,請務必要盡快處理他們,因為這些東西會造成更多的污垢灰塵堆積,進而重新堵塞過濾器,并降低冷卻效率。
如果您企業組織的數據中心是通過通路活動地板來輸送空氣的話,請移除那些未使用的電纜。這項工作是不容易的,但您并不需要一個資本預算授權來執行這項工作。而您可能會驚訝于這項工作的執行所帶來的冷卻性能的前后差異。
而聘請專業的數據中心清潔服務可能是值得的。一款清潔的設施所能夠為設備運行和功耗帶來的效益將會是相當驚人的。2、修復了剩下的設備
當您企業的數據中心運行接近其極限時,那么沒有什么比良好的預防性維護更為重要的了。即使這可能意味著超出了服務合同條款的特別服務,也務必要充分考慮這一點。確保一切設施都在其最高性能狀態下運行可能帶來額外的費用。
更換空調過濾器。檢查所有的皮帶和軸承,確認所有相關的一切都是干凈的。您的供應商應該有一套徹底的維修檢查清單,就像一名汽車機械師對汽車的維修檢查一樣。確保供應商完全遵循該清單進行歷次的維修檢查。而如果您企業的數據中心的運行確實已經接近其極限邊緣,而同時又負擔不起關閉空調服務以進行維修,那么您企業不妨選擇租用便攜式的冷卻設施,以助您渡過難關。
不間斷電源(UPS)的電池可能是數據中心最容易出現故障運行失敗的項目,而究其原因則是因為他們最被需要。閥控式鉛酸蓄電池(VRLA)只能維持幾年的時間,因此,如果這些電池的使用時間已經超過三到五年了,那么,替換掉這些電池無疑是一個好主意。
在對您企業數據中心的UPS實施預防性維護之前,請務必先更換UPS或添加容量,檢查相位平衡(phase balance)。您有可能獲得比您想象的更多的可用功率。
大型的UPS系統(一般在20千瓦及以上)是三相的。這意味著有三條“熱”的線纜,但幾乎所有的機柜和設備都只連接到這些相線中的一條或兩條。在美國,208伏的電路從三相電線中的任兩條獲得電源。在美國的一款120伏電路以及在歐洲的230伏線路,從任一一條相線外加一條零線獲得供電。其結果是,可以很容易地加載一個或兩個相位來接近容量,留下很少的負載連接到剩余的相位。
前面板的顯示屏可以告訴您每一相的負載,但一般的顯示將僅根據最壞情況的相位顯示負載百分比。因此,如果相位是失去了平衡,您的顯示器將顯示98%的利用率,即使20%到30%的容量能力仍然可用,且未使用。盡可能再平衡相位(目標是在5%以內)可以從現有的UPS解開額外顯著的電源消耗,從而幾乎不花成本就解決了在潛力的過載問題。
在任何未使用過的機架和機柜空間安裝沖裁板,以停止昂貴的冷卻空氣的浪費。卡入式面板可以帶來冷卻效率的巨大差異。同樣地,可擴展面板可以關閉機柜之間的縫隙,而現在的產品甚至可以密封機柜底部和地板之間的空間。
3、制定補充戰略
只有在上述的所有這一切工作都已經完成后,才應該考慮增加主要設備的問題。
如果您企業的數據中心需要更多的UPS容量,不妨可以考慮使用更小的、機架內UPS單元。這些將是有益的,但 只有當需要的額外UPS容量是最小量的時候。即使這意味著只是一個短期的解決方案,也請使用商業級的UPS單元。每隔幾個月檢查一下這些小單元的電池,并注意他們的警報。
如果您企業的數據中心需要更多的冷卻散熱能力,那么,行級冷卻器(in-row cooler,IRC)可能是比大型機房空調(CRAC)或空氣處理器(CRAH)更好的選擇,特別是如果現有的冷卻空氣是通過在地板下送風的話。增加CRAC可能會使得更多的空氣進入地板下,從而超出了地板充氣空間所能夠容納的空氣量,并可能由于地板的阻礙作用而增大了壓力。此外,空氣流會相互干擾,實際上降低了某些區域的冷卻效果,而并沒有改善它。
行級冷卻器被安置在機柜之間,并在機柜前的最高熱負載處直接提供冷空氣。進一步的改善可以通過將那些具有較高的熱輸出的設備重新定位安置到高密度的機柜配置,從而降低數據中心的其他部分的負荷。另一種選擇是通過采用后門熱交換器(RDHxs),其能夠在熱空氣離開機柜前中和熱量。這兩種方案都需要冷卻水或地板外的制冷劑管道,這當然會給數據中心帶來一些顯著的、以及潛在破壞性的安裝工程。但這些方法的優點是,它們可以通過規劃其大小和安裝位置,以解決特定的需要。能夠將主要工作限制到一個小部分的區域,并最大限度地減少了需要購買的新設備的數量。
如果冷卻仍然是一個問題,那么則可以考慮補充加入密封遏制(Containment)。冷通道密封遏制(Cold-aisle containment)對現有設施的改造通常是更好的選擇,但對于空氣的均衡也是難以控制的。熱通道遏制則避免了空氣均衡的問題,但它需要一個回風路徑以返回到空調機。這是IRC的一個固有的設計,但如果您企業數據中心不是已經在天花板有一個回風壓力通風系統返回到CRAC的話,其將是較為困難的。
較之實心的空氣阻擋門和面板,塑料窗簾在現有的空間更容易部署實現。他們允許漏風,這可以解決冷通道密封所帶來的空氣均衡的挑戰。但是,采用塑料可能不符合防火和煙霧排放的要求。
固體密封遏制,使用列末門和上述機柜板,可能更難以在現有的空間來部署實現,但其要比塑料窗簾能夠提供更完整的密封遏制。在冷通道密封遏制的空氣平衡將是具有挑戰性的,通常意味著設計需要允許一些縫隙泄漏的存在,以避免問題。
此外,關于密封遏制,有重要的消防保護方面的考慮。如果灑水噴頭或排氣壓頭不在每個通道中,密封遏制可能會將一個通道與滅火劑隔離,而這是非法的。 美國防火標準要求保護壁壘下降后自動實施煙霧檢測(不讓熔線因實際火災而遇熱融化),而下降的保護壁壘會落入通道,而不會阻礙緊急疏散。為了解決這些問題,最好的辦法是重新配置火災保護方案,但這樣可能是成本昂貴且具有破壞性的,可能不適合一個現實可行的短期設施規劃方案。
當面對要將一處現有的數據中心的使用壽命延長幾年的需求時,第一步的措施可能會是那些您企業原本應該一直都在采取,但到此刻為止才被迫開始采取的措施。
企業為修理一處即將報廢的設施而批準龐大的預算將是很難的,而且應該很少是必要的。當確實是必要的時候,解決方案在本質上需要是模塊化的,只提供必要的,并且是以最低的成本和盡可能不發生中斷。
除非絕對必要,否則千萬不要添加主要的設備。這種工作的成本將是相當昂貴的,而且對于現有的系統是危險的,并可能會產生新的問題,而不是解決現有的問題。
將電纜、傳感器、硬盤的升級列入您企業的待辦事項清單
并不是每一個IT基礎設施項目都是耗時的,資本密集型的,會給企業帶來顛覆性影響的。讓我們來看看一些可以幫助您企業支撐一處數據中心的簡單的且成本低的工作任務吧。
1、升級現有的硬件
對于數據中心內存和本地硬盤的戰略型升級有助于提高服務器的性能容量。內存是虛擬化的一個限制資源,而服務器很少配備了全套板載。盤點您企業數據中心未使用的插槽,并為現有的虛擬機添加內存,以幫助或適應未來的服務器整合。
固態硬盤(SSD)是對戰略性服務器的一種本地磁盤存儲升級。固態硬盤改善了I / O和更低的延遲性,是敏感的工作負載存儲帶寬的理想選擇。如果一臺服務器上的工作負載依靠磁盤緩存,固態硬盤可以加速其性能。無需撕裂和更換所有磁盤驅動器,僅僅只需將一款固態硬盤添加到一臺服務器的本地存儲,以清除瓶頸和停止錯誤。
升級服務器固件是快速且免費的,但也具有破壞性。執行這類升級只能解決諸如硬件或操作系統支持等具體的問題。清查盤點您企業數據中心的資產,并列出一份當前的服務器型號和固件版本的清單列表;然后檢查服務 器供應廠商的更新網站以下載最新的更新。通過細節或發布的更新說明確定這些更新是否能夠真正解決問題。外設接口和適配器設備也有可能需要更新固件。
內存和磁盤升級意味著出現停機時間(除非采用熱插拔)和重新配置機架。“內存升級是成本便宜且有效的,但…這不完全是就地升級(in-place upgrade)。”網絡自動化技術開發商6connect公司的首席運營官兼聯合創始人Pete Sclafani表示說。因此企業不妨在計劃的服務器停機時間內執行內存和SSD升級。
磁盤容量是昂貴的,您企業可以通過刪除不必要的內容或通過將數據遷移到較低的存儲層來防止大容量的增加。例如,不必要的數據所帶來的大量臨時目錄,可以在服務器和存儲子系統的/tmp和c:/temp目錄下清除。
嘗試為薄存儲部署使用一個零字節回收。“零寫入到所有已分配但未使用的空間。”位于加州阿納海姆山的一家云平臺提供商ReachIPS公司的IT運營總監Tim Noble表示說。服務器分配的一個零字節回收,永不需要存儲,從而釋放了陣列的空間。
2、重新布線
隨著網絡帶寬達到10千兆以太網(GigE),25千兆以太網,甚至更快,這意味著1千兆以太網的老化類別的5和5e銅布線基礎設施已經無法應付新的數據中心的要求了。
即使為更高的帶寬網絡選擇了合適的硬件,也可能缺乏線纜。“人們往往忘記,當物理網絡設備升級后,您企業網絡的布線可能無法充分利用,”Sclafani表示說。不要一下子撤掉所有老化的線纜;以太網線纜完全向后兼容。當時間和預算允許時,在更快的線纜方面做出相對較小的,增量投資。
服務器將仍然保持在10千兆位以太網,所以企業數據中心應著眼于重點骨干網絡,特別是基于以太網的iSCSI和以太網光纖通道存儲陣列。例如,6類線纜可以支持10千兆位至55米,而6A類線纜和7類線纜則可以處理10千兆至100米,無需新的網絡適配器、交換機或其它組件。
3、添加傳感器
如果您無法衡量它,您就無法對其實施管理。數據中心基礎設施管理(DCIM)工具則能夠監控復雜設施的電氣和環境行為。
DCIM需要在數據中心范圍內有策略地放置傳感器。這些工具可以針對情境事件自動觸發響應,如當某臺服務器變得太熱時遷移工作負載;或在冷卻循環中出現水分泄漏時發出探測警報。傳感器的缺失或不足或將導致輸入缺口。
哪些傳感器是不可或缺的?
· 溫度傳感器定位在機架和行內的熱點位置。
· 濕度傳感器真對過于干燥的空氣或冷凝水平損壞發出警告。
· 當冷卻水在熱交換器或機架上循環流通時,水分(液體)傳感器是必不可少的。
· 能源使用狀況的實時監控。
· 空氣流傳感器確保風扇和過濾器的暢通運轉。
· 運動探測器檢測入侵者,并觸發安全警報和相機拍照。
· 煙霧/火警傳感器保護數據中心寶貴的資產和生命。
· RFID標簽有助于自動化硬件庫存控制。
新的傳感器很容易安裝。此外,它們可以逐漸增加,從而分散了成本。
關于作者
斯蒂芬 J.畢格羅是TechTarget網站數據中心和虛擬化部門的高級技術編輯,擁有在PC /技術行業超過20年的技術寫作經驗。
羅伯特·麥克法蘭是國際咨詢公司Shen Milsom and Wilke的數據中心設計部門主要負責人,他在通信咨詢領域的從業時間超過35年。他在數據中心行業的每一個領域環節都有相關經歷,是電纜開發設計領域的先驅。麥克法蘭同時也在馬利斯特學院研究所為數據中心專業人員計劃教授數據中心基礎設施課程。