關于數據中心的容量規劃,我們需要針對兩大問題提出解決方案:您的數據中心在未來一年內會購買設備?您打算具體什么時候購買?
為了回答這些問題,您需要了解以下信息:
當前的使用情況:哪些組件會影響您數據中心的服務能力?這些設備當前的使用情況如何?
正常的業務增長情況:排除任何特定業務或營銷事件的影響,您數據中心服務業務的預期增長率是多少?有時,這就是所謂的有機增長。
計劃性的業務增長情況:您數據中心制定了哪些業務或營銷活動計劃,這些計劃中的活動何時會發生,每項活動所帶來的預期增長情況如何?
凈空余量(HeadRoom):您數據中心在短期內會遭遇哪些類型的服務使用高峰?在未來一年內是否會有諸如奧運會或選舉等任何特定事件,預計這類型的活動將導致怎樣的數據處理需求?數據中心需要多少的閑置產能,以便能夠很好地處理這些峰值需求?凈空余量通常被指定為當前容量的百分比。
時間期間:對于每一個組件,從訂貨到交貨的時間是多久,以及從其交貨到真正開始在數據中心執行服務任務的時間是多久?這些組件是否會給服務帶來新的具體限制規定,如更改某些窗口設置?
根據這些信息,您可以通過一個簡單的公式來計算出在明年年底前您對于每項資源所期望的容量能力:
未來所需資源=當前使用情況×(1 +正常業務增長+計劃增長情況)+凈空余量
然后,您可以通過計算每項資源的未來需求,來確定您數據中心所需要購買的額外的容量:
額外的資源=未來資源?現有資源
無論您是否認為您數據中心未來需要更多的容量能力,都需要針對每項資源執行此計算。據此,您可以得出您數據中心在新的一年里不需要更多的網絡帶寬的結論。畢竟,如果您沒有在進行容量規劃時將所需運行的網絡帶寬考慮在內,其會讓您措手不及。對于共享資源,來自很多團隊的數據將需要結合,以確定是否需要更大的產能。
目前的使用情況
在您數據中心考慮購買額外的設備之前,您需要了解您數據中心目前有多少可用資源,以及您目前使用了多少資源。而在您評估您數據中心所擁有的資源之前,您需要有一個關于您數據中心目前所能夠提供服務的資源的完整的清單。如果您忘記了某些東西,其將不會被包括在您的容量規劃之內,而您可能會在稍后被耗盡,因此無法隨著您數據中心業務的增長滿足服務需求。
跟蹤什么資源信息
如果您數據中心所提供的是基于互聯網的服務,兩大最顯而易見的事情是一些提供服務的機器需要連接到因特網;而一些機器可能是通用型的機器,后來被定制化了以便執行特定的任務,而其他的則可能是專用設備。
深入到這些項目,如機器的CPU,高速緩存,內存,存儲和網絡。連接到互聯網需要一個本地網絡,路由器,交換機和至少一個ISP連接。更深一步,網卡,路由器,交換機,電纜和存儲設備都有帶寬的限制。有些設備可能有更高端的網卡,需要在網絡上有特殊的電纜和接口。所有的網絡設備需要IP地址。這些都是需要被跟蹤資源。
退一步,所有的設備都會需要運行某種操作系統,而其中一些還運行了附加的軟件。操作系統和軟件可能需要許可證和維護合同。設備的數據和配置信息可能需要更多的系統備份。甚至更遠一步,需要安裝在一個數據中心的機器設備,需要滿足相關的電力和環境需要。數據中心機架的數量和類型,電力和冷卻容量、可用空間等都需要進行跟蹤。數據中心可能需要為每臺機器設備提供額外的服務,如控制臺服務。對于有多處數據中心或分公司的企業,可能需要在這些站點之間建立聯系,當然也就有容量能力方面的限制。這些都是需要額外跟蹤的資源信息。
如果涉及到外部供應商可能會提供的一些服務。相關的服務合同規定需要涵蓋這些服務的成本或容量限制。要確保您數據中心已經把每一個可能的方面都考慮在內,與數據中心每一個部門的人員交流,并搞清楚他們在執行哪些業務內容以及這些業務內容與數據中心所提供核心服務的關系。對于所有涉及到的服務,您數據中心均需要了解其容量限制是怎樣的,如何能跟蹤這些信息,如何衡量有多少可用容量被使用了。
您數據中心擁有多少可用資源
沒有什么東西可以代替一個很好的最新庫存數據庫來幫助您數據中心保持對于您資產跟蹤的了。庫存數據庫應使其成為組件訂購,配置和退役過程的核心,以及時保持更新。一個及時更新的庫存系統能夠讓您及時找出您數據中心擁有多少資源的相關數據信息。其也被用來跟蹤軟件許可證和維修合同,以及合同中所涉及到的由第三方提供的資源。
使用有限數量的標準機器配置,和一套標準的設備,存儲系統,路由器和交換機可以更容易地幫您數據中心找到低級別的資源設備的數量,如他們的CPU和內存。
您目前使用了多少資源
為每項服務確定有限的資源。您的監控系統可能已經收集了CPU,內存,存儲和帶寬資源的使用數據。通常,其收集這些數據的頻率要比容量規劃要求的要高??偨Y或統計樣本可以有助于充分規劃的目的,一般會簡化計算。這些數據與庫存系統的數據相結合,將顯示您當前有多少閑置產能。
跟蹤庫存數據庫的一切數據并使用有限的一組標準硬件配置數據也可以幫助您很容易地找到您數據中心的每臺設備目前使用了多少空間,電源,冷卻和其他數據中心資源。所有的數據輸入到庫存系統,可以自動生成數據中心資源當前的利用率。
正常業務增長情況
監控系統直接提供當前設備使用情況和容量的數據。其也可以用于為數據中心提供較之前一年的業務正常增長率。找出任何明顯的階段性變化,看看這些變化是否對應到了某一個特定的事件,如推出了一款新產品或受到一次特殊的市場營銷活動驅動。如果由于這些特定的事件帶來了在剩下的時間里的持續的需求增長,您需要計算這一變化,并減去從隨后的相關數據,以避免由該特定事件所驅動的需求影響了正常業務增長的計算。盡可能的持續多年繪制該數據圖,以確定正常的業務增長速率是否線性的,或遵循了一些其他的趨勢。
計劃中的業務增長
第二步是對于市場和商業活動所帶來的額外需求增長的估計,如推出新產品或新功能。例如,市場營銷部門會計劃在五月份舉辦一次大型活動,預計將增加20%到25%的客戶群。或者是一款新產品將于今年八月發布,而較之之前三個月的服務,預計會帶來每月10%的工作負載的梯度增加,并在年底前增加至30%.數據中心需要使用從第一步預期的增長假設來驗證數據的任何變化。
凈空余量
凈空余量是被認為是常規產能過剩量。任何服務都將需要擴展資源使用率,以滿足偶爾遭遇的使用高峰或邊界條件。為了防止這些邊界條件觸發中斷,必須定期提供閑置的資源。對于一項既定的服務,需要提供多少凈空余量是一項非常重要的商業決定。由于過剩產能主要是未使用的容量,其本身的性質就意味著潛在的投資浪費。因此,負責任的數據中心的財務部門需要在節約資金和防止可能的服務中斷之間進行有效的平衡。
您的監測數據應拾取這些資源的尖峰值并提供硬統計數據,包括何時、在哪里及其發生的頻率。數據中斷和相關報告也應重點確定合理的凈空余量。
確定數據中心需要多少凈空余量所需的另一部分工作是需要確定處理額外的資源部署到生產過程所需要花費的時間。如果需要三個月的時間來提供新的資源,那么您顯然需要比花費兩個星期或一個月的時間提供新資源更多的可用余量空間。至少,您需要足夠的空間來保證預期的增長時期。
彈性
可靠的服務也需要額外的容量能力來滿足SLA.額外的容量可以允許一些組件發生運行失敗,同時不會影響到最終用戶的體驗,甚至造成中斷或服務質量下降。額外的容量需要在不同的故障域;否則,一個單一的中斷也可能造成主機和備用容量的運行中斷,以接管工作負載。
通常,在一個大型的數據中心,運行失敗的故障域也應該考慮。例如,對電力系統全設施的維護工作要求整個建筑的電力供應都要被關閉。如果整個數據中心斷電離線,服務必須能夠順暢轉移到其他數據中心運行而沒有容量能力的問題。散布在多個故障域的服務能力可以減少處理額外的容量能力的彈性要求,以最具成本效益的方式提供額外的容量。例如,如果某項服務運行在一個數據中心,第二處數據中心需要提供額外的容量,約50%.而如果某項服務運行在九個數據中心,那么就需要第十處數據中心來提供額外的容量;此配置僅需要10%額外的容量。
黃金標準是同時為兩處數據中心提供足夠的容量能力。這允許一處數據中心能夠進行有計劃的維護,而企業仍然準備好了另一處數據中心保持業務順暢運行,防止意外發生。
時間期間
大多數公司每年都會制定其年度預算計劃。基于您數據中心的正常業務增長和計劃增長情況進行相關的預期,從而映射出您數據中心所需要的可用資源。由此,您需要弄清楚從制定出該計劃到相關資源真正成為可用的需要多長時間。
從您數據中心采購訂單被批準到其被發送給供應商需要多長時間?從采購訂單到供應商最終實現貨物交付需要多長時間?從交貨到資源真正裝配完畢可用需要多長時間?在設備安裝完成之后是否需要具體的測試?是否需要更改特定的窗口設置,以實現額外的容量能力目標?一旦額外的容量被實現,需要多長時間來重新配置服務來使用它?利用這些信息,您可以提供一個經費需求時間表。
物理服務通常比虛擬服務花費更長的時間。部分流行的IaaS和PaaS產品,如Amazon的EC2和彈性存儲是新請求的資源,幾乎已經普及了即時交付。
減少資源的交付時間始終是符合成本效益的,因為這意味著我們可以支付較少的過剩產能,以覆蓋資源交付時間。這就可以自動準備新獲得的資源,以獲得直接的價值。
先進的容量規劃
大型、高速增長的環境,如流行的互聯網服務需要不同的方法進行容量能力的規劃。標準的企業風格的容量規劃在技術方面往往是不夠的??蛻艨赡芤院茈y預測的方式迅速變化,數據中心服務商需要更深入、更頻繁的對服務監測數據進行統計分析,以檢測使用趨勢的顯著變化。這種容量規劃需要更深入的技術知識。容量規劃需要熟悉諸如QPS,活躍用戶,參與度,主要資源,能力的限制和核心驅動程序等概念。