2014年,行業觀察人士看到超大規模計算大行其道。Hadoop及起源于學術界和研究界的其他集群架構在業界幾乎司空見慣。大數據和業務分析推動著市場對計算能力有著巨大需求,而2015年應該是數據中心行業的另一個重大之年。
要是你擁有與超大規模數據中心一樣多的運營預算,你會怎么做?這聽起來就像是彩票中了頭獎,或者進入一個沒有限制的世界,但任何一名數據中心管理人員都知道,基礎設施的擴展需要應對更艱巨的技術挑戰――這就是為什么有必要關注正在挑戰極限的開路先鋒,并向它們取經。
第一個經驗:別忽視了“小”數據。
數據中心擴大規模時,大多數IT團隊會尋求這樣一種管理控制臺:能夠提供一種直觀、全面的視圖,從而簡化日常的管理任務。IT團隊在管理超大規模的數據中心時,還學會了尋找這樣一種控制臺:可以調用如今的數據中心平臺帶來的細粒度數據。這包括每一個服務器、機架或整屋子計算設備的實時用電情況和溫度。
整合了能源管理中間件的管理控制臺可以把這些數據中心的數據點聚合到一覽無遺的熱相圖和電力圖,并將用于趨勢分析和容量規劃的所有數據記入日志。之后可以充分利用這些數據,用于各種削減成本的實踐。比如說,數據中心的團隊可以根據實際的耗電情況,更高效地配置機架。要是不了解實時模式,數據中心團隊就只好依賴電源額定功率和靜態的實驗室測試。
一種示例性的使用場合表明了實時監控與靜態計算之間的重大區別。配置4000瓦電量的機架時,傳統的計算方法導致數據中心團隊為每個機架安裝大約10臺服務器。(在這個例子中,服務器電源額定功率為650瓦,實驗室測試表明400瓦對預期的配置而言是個穩妥的數值。)
同樣這個團隊對耗電量執行實時監控后發現,服務器的用電量很少超過250瓦。了解這個情況后,團隊將為機架配置的服務器數量增加到16臺――計算容量增加了 60%。萬一任何某一個機架中的服務器帶來的需求讓總耗電量超過機架閾值,以免造成破壞,數據中心團隊同時為每個機架采取了保護性的電量封頂,這會在下面的第五個經驗中作更詳細的解釋。
第二個經驗:消除幽靈服務器。
一旦數據中心團隊有能力監控實時耗電情況,評估工作負載在整個數據中心的分配狀況就成了一項簡單的工作。很容易發現通常未得到充分利用的服務器和機架。經過一段時間后,數據中心管理人員就能確定可以合并或精簡哪些服務器。幽靈服務器是上了電但處于閑置狀態的系統,可以讓它們處于節省電力的睡眠模式。可以采取諸如此類的節能措施,避免能源浪費,因而可以縮短用電預算。實際情況表明,如果處理好幽靈服務器,無論規模大小,普通的數據中心可以將預算縮減15%到 20%。
第三個經驗:選擇軟件而不是硬件。
超大規模運營常常橫跨分布在不同地區的多個數據中心,這樣一來遠程管理顯得至關重要,以確保服務的日常連續性。當前的全球經濟氣候讓許多企業和機構面臨同樣的情形,IT部門在設法高效地管理多個站點,又不必將人手增加一倍,或將時間浪費在奔波于多個地方。
遠程鍵盤、視頻和鼠標(KVM)技術在過去幾十年有了長足發展,可幫助IT部門與時俱進,但硬件KVM解決方案因而變得日益復雜起來。為了避免管理管理覆蓋系統(management overlay)本身,許多世界上最龐大、最復雜的基礎設施的操作人員在采用軟件KVM解決方案,最近還在采用虛擬化的KVM解決方案。
即便對普通的數據中心而言,節省的成本也會迅速積少成多。IT團隊應該把任何現有的KVM切換器和適配器的成本以及相關的許可費(切換器軟件、帶內許可證和帶外許可證等)加起來。一套典型的硬件KVM切換解決方案其成本通常如下:切換器超過50萬美元,切換器軟件要12.5萬美元,帶內和帶外節點許可證另外要50萬美元。連適配器也有可能超過25萬美元。另外,軟件KVM解決方案可以避免100多萬美元的硬件KVM成本。
第四個經驗:適當調高溫度。
世界上一些規模最大的數據中心在監控和管理能源及熱量模式方面有著多年的豐富經驗,它們率先采用了提高環境溫度的運營模式。發布的數字表明,將數據中心的環境溫度調高1°C,就可以讓數據中心電費減少2%。
適當調高數據中心的環境溫度后,經常檢查局部熱點,并實時監控數據中心設備,這一步很重要。一旦有效的監控實時到位,就可以逐步調整工作溫度,并且對照預算和容量規劃來評估節省了多少成本。
第五個經驗:別讓你的機架溫度過高。
由于企業期望以及要求IT部門識別和避免原本會干擾關鍵業務運營的故障,已在超大規模數據中心證實切實可行的任何主動管理方法都應該予以評估,看看有沒有可能適用于規模較小的數據中心。過高的工作溫度會給硬件帶來毀滅性后果,所以要密切關注這會給設備正常運行時間和生命周期帶來怎樣的影響,這點很要緊。
Hadoop 等許多HPC集群添置了冗余和動態負載均衡機制,以便遇到故障后可以順暢恢復。有助于盡量降低超大規模能源需求的同一套基本的監控、警報和自動化控制機制也能幫助規模較小的數據中心識別和消除局部熱點;而從長遠來看,局部熱點會給設備的健康狀況帶來不利影響。電源和溫度方面采取統一的做法還有助于在數據中心保持更一致的環境,這最終可以避免損壞設備的溫度突增和電力尖峰。
除了環境控制外,IT團隊還可以充分利用最前沿的能源管理解決方案,它們提供了電力封頂功能。如果設置電力閾值,就能隨心所欲地配置機架,又不用擔心電力尖峰這個風險。在一些地區,電力封頂對保護數據中心避免有干擾、不可靠的電源起到了重要的作用。
向前看齊
幸好,大多數數據中心在相比超大數據中心和超大規模計算環境風險低得多的規模下運行。不過,任何規模的數據中心都應該將減少能源成本、避免服務中斷視作一個優先事項。如果采用成熟可靠的方法,并充分利用整個數據中心中的所有實時數據,IT和設施部門就可以效仿超大規模數據中心,只需要投入比較少的前期成本和精力,就能獲得重大回報。