人們可能認為如今的數據中心硬件的物理設計已經非常標準。但是不要那么肯定。
在真正的數據中心出現之前,服務器就已經安裝在19英寸機架中。數據中心建筑的空氣冷卻技術也發展到很高的水平,數據中心的配電也是一項非常成熟的技術。而在過去的幾年,數據中心技術只有一些增量的改變。
考慮到這一切,人們可能會認為數據中心硬件的設計已經很標準,其未來的變化只是一些調整。不過這種想法是錯誤的。數據中心機架、冷卻、配電方面還有很多前沿技術和方法。有一些技術已推出多年,有些技術似乎突然出現。但并非所有技術都會獲得市場驅動力。
機架的革命
對于習慣于服務器機架成排垂直部署的人來說,進入法國提供商OVH公司運營的云計算數據中心之一就會有一種錯亂的感覺。與業界的標準做法背道而馳,OVH公司數據中心的服務器機架不是垂直排列部署的,而是水平堆疊部署的。OVH公司希望成為歐洲主要的云計算提供商,該公司基于VMware和OpenStack的平臺即服務(PaaS)公共云并為客戶托管企業私有云。
OVH公司在法國Roubaix的數據中心設施附近運營一家生產機架的小型工廠,其生產的“Hori-Racks”機架與傳統48U機架尺寸相同,但配置完全不同。在它們內部,三個小型16U機架并排放置。工廠預先將這些“Hori-Racks”機架與服務器一起運送到OVH公司的數據中心設施,這些數據中心主要在法國運營。
OVH公司首席工業官FrançoisStérin說,“機架立平堆疊部署方式的原因是生產速度快,并且易于部署,可以使用叉車將它們部署在數據中心,并將其更快地堆疊和安裝。”
其機架經過快速構建和測試,采用即時方法,可以最大限度地減少庫存。三名工作人員可以并排工作來裝載和測試硬件,然后采用叉車、卡車或拖車可以將機架移動到目的地,例如在法國格拉夫林和斯特拉斯堡或新加坡。在數據中心機房中,可以最多將三個機架堆疊在一起,提供與傳統機架相同的服務器密度。
OVH公司可以自由地選擇或部署硬件,因為提供PaaS級別銷售服務,而不會與客戶的硬件搭配。此外,OVH公司采用了一種新穎的冷卻方法。
其他公司在改變機架時不會像OVH公司的機架技術那樣激進,但還有很多公司希望采用新方法來構建它們。最明顯的例子是采用開源硬件,如由Facebook推出的Open Compute Project(OCP)和由LinkedIn公司推出的Open19。
這兩家公司都是“買家俱樂部”成員,共享硬件的定制設計,以便多個客戶可以從這些調整中獲得大訂單的好處——通常旨在簡化套件,并減少最終產品中浪費的材料和能源。事實證明,傳統的機架和IT硬件浪費了大量資源,從不必要的電源設備到制造商的品牌標簽。
OCP由Facebook公司于2011年推出,旨在開發和共享機架和其他硬件的標準化OEM設計。該公司推出的理由是,由于規模龐大,網絡規模的公司可以向供應商要求自己定制的硬件設計。通過更廣泛地分享這些設計,將有可能將這些好處傳遞給規模較小的廠商,同時從他們那里獲得改進設計的建議。
雖然OCP的創始人都是針對大型云計算廠商,但有跡象表明,這些想法已經進一步擴展到托管數據中心服務商。在這里,提供商對數據中心空間中的硬件沒有最終控制權,因此它無法提供OCP設想的單片數據中心架構,但是一些客戶正在接受這個想法,而OCP已經發布了設施指南,并提出“OCP就緒”的理念,這意味著OCP機架和OCP硬件將得到歡迎和支持。
OCP提出了一種新的機架設計,它將更多的硬件裝入與傳統機架相同的空間。通過使用機架內的更多空間,它允許采用21英寸規格的設備,而不是通常的19英寸。它還允許更深的套件,OpenU的1U尺寸為48mm,而普通機架的1U尺寸為44.5mm。
該設計還使用直流電源,通過機架背面的是電源分配總線。這種方法吸引了像Facebook公司這樣的大規模用戶,因為它允許數據中心取消IT工具包中的多個電源。它沒有采用交流電源,而是在每個設備中將其整流為直流電,并且在一個地方完成。
Open Rack版本1使用12V直流電源,版本2中也允許使用48V直流電源,這也增加了機架內鋰離子電池的選項,可以將其作為一種分布式UPS系統。
這對某些人來說過于激進。例如,LinkedIn公司在2016年推出了Open19基金會,該基金會在不打破19英寸模式的情況下提出了大規模市場簡化。Open19機架通過簡化的配電系統劃分多個機架,類似于硬件供應商提供的專用刀片服務器。該基金會還共享LinkedIn公司開發的網絡交換機規范。
機架標準正在升級,但Open Rack或Open19是否會名列前茅?
Open19創始人Yuval Bachar說,“我們看到已經推出21英寸的Open Rack機架產品,我們仍然推出19英寸的標準機架。我們希望在PDU、電源、機架等常見器件方面降低50%的成本,但實際上降低了65%的成本。”
就在其推出Open19的同時,LinkedIn公司也被微軟公司收購,微軟公司是OCP的主要支持者,也是Azure云計算數據中心的OCP標準設備的大型用戶。微軟為OCP提供一些新技術,例如機架內置鋰離子電池,為IT套件提供電源連續性,可能取代UPS設備。
在完成LinkedIn收購之后,OCP和Open19將會繼續并行,OCP為大型數據中心提供服務,而Open19則針對中小公司使用的較小數據中心設施。然而像LinkedIn這樣的公司正在運營自己的數據中心。此外,Open19還將專注于邊緣計算部署。
然而,LinkedIn公司在2019年7月宣布,不再計劃運行自己的數據中心,并將其所有工作負載轉移到公共云,顯然其使用了微軟公司的Azure云平臺。
同樣,LinkedIn宣布其Open19技術規范將為OCP做出貢獻。OCP規范和Open19規范有可能在未來合并,但現在說為時尚早。即使LinkedIn公司不再需要它,該組織還有25個以上其他成員采用。
對于網絡規模數據中心設施,OCP正在推進第三版OCP Rack,由微軟公司和Facebook公司提供支持,這似乎是由人工智能和機器學習所需的功率密度增加所驅動的。
Facebook公司在博客宣布推出OCP Rack v3時說,“在組件層面,我們看到各種處理器和網絡芯片的功率密度在不久的將來會超出空氣冷卻設備的能力。在系統層面,人工智能硬件解決方案將繼續推動更高的功率密度。”
新版本旨在標準化用于在機架內循環液體冷卻劑的歧管,以及用于柜門的熱交換器,并包括完全浸入式冷卻系統的選項。目前尚不清楚其詳細的規格是什么,但它們將來自OCP的機架和電源項目,以及其先進的冷卻解決方案子項目。
液體冷卻
在過去的幾十年里,液體冷卻技術展現出巨大的潛力。液體比空氣具有更高的捕獲和移除熱量的能力,而液體冷卻機架中的硬件是對現有冷卻實踐的重大改變。因此,液體冷卻一直列在那些不值得付出額外代價和精力的技術名單上。
如果數據中心每個機架功率低于20kW,采用空氣冷卻技術可以有效地降低成本,并且無需采用液體冷卻技術。如果機架的功率密度通常低于20kW,大多數數據中心可以在不必采用液體冷卻技術的情況下輕松構建。
然而,有兩種可能性將液體冷卻推向應用前沿:首先,用于人工智能等技術的GPU和其他專用硬件將驅動功率密度上升。其次,對于那些實施液體冷卻的公司來說,還有其他好處。一旦實施,液體冷卻為數據中心設施開辟了很大的靈活性。風冷式機架是冷卻系統的一部分,必須包括空調、空氣處理和控制系統,并包括整個建筑物的墻壁和地板。
液冷機架只需要一條電纜連接,可以單獨放置在水泥地板上、鋪有地毯的空間或小機柜中。這可能很難應用在零售托管空間中,因為它會影響IT設備的部署和運營。因此,除非最終客戶特別需要液體冷卻技術,否則不會采用。但它確實適用于數據中心日益增加的靈活性,其中設備提供商可以控制硬件,并且沒有建筑級別的冷卻遏制系統。
小型邊緣計算設施通常是微型數據中心,并不具備數據中心的多種資源。而其他數據中心正在重新利用的建筑物內建設,通常是小規模的增量。液體冷卻系統可以很好地滿足這些要求。
早期的大型機采用的是水冷卻技術,但在現代,數據中心采用各種液體的冷卻技術。
Asperitas、Submer、GRC等公司完全將機架設備浸入在惰性液體中。其冷卻不需要電能,但其維護很復雜,因為其機架設計完全改變,并且必須在更改硬件之前將服務器和開關從窗口中取出并排干。Iceotope公司將IT組件浸入機架內托盤的系統,現在獲得施耐德公司的技術支持。
另一些冷卻技術則提供直接循環,通過耗電器件的散熱器進行液體冷卻。這是由那些想要超頻的游戲玩家開發的技術,以消除產生的額外熱量。像CoolIT這樣的公司為機架中的商業設備開發了冷卻循環系統,但它們一直是特別針對超級計算機的利基產品。它們需要更換機架,并引入循環系統,將冷水流入機架,并將溫水排出。
OVH公司在法國北部的數據中心采用了自己的液體冷卻技術,該公司改造后的工廠構建數據中心,這些工廠以前生產的是掛毯、軟飲料和醫療用品,采用液體冷卻能夠將這些工廠建筑視為一個外殼:采用一次性建造、高架地板,以及OVH公司機架堆棧,并根據需要采用液體冷卻系統。
OVH公司首席工業官FrançoisStérin解釋說,“我們的模式是購買現有建筑物,并對其進行改造來使用我們的技術。我們能做到這一點是因為我們自己的機架有一個完全自主的水冷系統,而且還在機架背面使用一個熱交換器門。這使得我們的機架與建筑物的其他部分完全無關。”
Stérin表示,“我們這種技術的靈活性有助于改變市場。我們不需要建立一個電力容量100兆瓦以上的大型數據中心,可以從建設和部署1MW數據中心開始,可以了解數據中心市場對我們的影響。”
OVH公司的創新推動了技術的發展。OVH公司技術人員展示了當前版本的冷卻技術的維護措施,其維持過程看起來有些像外科手術。首先使用手術夾將裝有冷卻液的管子密封,然后將電路板與管子斷開并取出,然后采用SSD硬盤替換機械硬盤。而這種設計已經被另一種設計所取代,這種設計使用了卡口接頭,因此無需夾住管子就可以拔出電路板。
當然,也可以使用傳統的液體冷卻系統,包括機柜中的熱交換器,在空氣冷卻仍然可行的情況下,這種冷卻系統也很有效。
OVH公司將其與液體冷卻循環系統相結合。直接液體冷卻從其IT設備去除了70%的熱量,但仍然需要去除另外30%的熱量,可以通過后門熱交換器移除。這是一個將熱量排出的閉環系統。
對于設計安裝在殼體中的IT系統,不必采用液體冷卻技術。現在常見的一種情況是,在數據中心中,服務器機器單獨構建在水泥地面上,并采用傳統冷卻系統。Vertiv公司等主流供應商提供的模塊化建筑可以放置在水泥地板上,而其他供應商也在提供自己的產品。
一個有趣的供應商是Giga Data Centers,該公司聲稱其WindChill數據中心PUE值可以低至1.15,例如該公司最近在北卡羅來納州的Mooresville大樓中開通運營一個數據中心設施,其采用的方法是在機架旁邊建立一個空氣冷卻系統,這樣就可以吸入大量的空氣并進行冷卻循環。
如今,IT硬件設計正在以前所未有的速度發生變化,那些構建和托管數據中心的廠商需要跟上其發展的步伐。