智算基礎設施挑戰與突破
隨著人工智能、大數據、云計算等技術的飛速發展,算力需求呈爆炸式增長,也對算力基礎設施提出了前所未有的挑戰。高負載、高能效、高可用性,已成為對當前智算中心的基礎要求。
“智算中心相對于傳統數據中心來說,要滿足集中化、高效化和快速化三個特點。”參加京東云“瘋狂星期四”直播的嘉賓,中國電子工程設計院數據中心事業部設備所所長沈曉朋表示,隨著AI大模型的競爭日益激烈,智算中心的建設需求與日俱增,服務器功率密度也逐年上升,這不僅要求基礎設施能夠快速響應,更要在能效、可靠性等方面達到新的高度。
京東云阿爾法智能算力模塊
京東云在此次直播中重點展示了其阿爾法算力模塊,該模塊針對高功率服務器集群量身定制,通過優化電力供應和散熱系統,實現了顯著的能效提升。京東云技術專家介紹,阿爾法算力模塊通過風墻精密空調、熱通道封閉與京東云智能京維平臺三管齊下,實現了模塊能耗降低30%的目標。
快速交付也是阿爾法算力模塊的一大特色。在確保服務器大幅降低能耗的同時,這種模塊化設計可以顯著加快部署速度。據介紹,從需求確認起僅需35天,阿爾法算力模塊即可完成在工廠的預制,并在10天內交付給客戶,整體部署可以控制在45天內完成。
液冷技術的綠色革命
隨著算力密度的不斷提高,液冷作為一種更高效、節能的散熱技術走入了行業視野。作為一種新興技術,雖然具備多重優勢,但在應用普及的過程中,還面臨著用戶的諸多擔憂。
沈曉朋認為,業內對液冷應用的擔憂主要集中在幾個方面:首先是標準不統一帶來的維護、遷移難題;其二是傳統風冷數據中心的液冷化改造困難的問題;其三是部分液冷技術采用的冷卻液泄露后會帶來一定的環境危害;最后沈曉朋表示,液冷系統的部署成本和投資回報比,也是當前用戶重點關注的問題之一。
京東云事業部AIDC業務部硬件架構專家介紹,針對這些行業普遍擔憂的問題,京東云推出了自研液冷服務器,通過模塊化設計和高可靠性材料的應用,成功解決了傳統液冷方案的諸多痛點。
京東云自研液冷服務器經歷了京東集團內部各業務的嚴苛考驗,可以實現PUE達到1.1以下,同時支持不同算力平臺的CPU、GPU核心750瓦以上的散熱需求。另外通過模塊化的設計,可以直接替換傳統的風冷散熱方案。
對于部署成本問題,京東云技術專家表示:“液冷服務器在前期硬件投入上略高于傳統風冷方案,但通過長期運營中電費、運維成本的節省,只需要15個月左右就能實現總體成本的平衡,全生命周期可以實現5%左右的成本降低。”
京東云液冷服務器
京東云還通過現場直播,對自研液冷服務器進行了一場“拆機秀”,由硬件工程師現場拆解并詳細展示液冷服務器的每一處細節。采用模塊化設計的京東云自研液冷服務器拆卸維護簡便,包括電源、散熱器、網卡、進水、出水管等,均可以通過標準件進行直接替換。
服務賦能智算生態
除了硬件層面的創新外,在運維服務方面,京東云也屢做創新,為智算業務的發展提供了強勁動力。為更好地運維智算中心,京東云自研了智能京維平臺,通過引入先進的人工智能技術,內置多個模塊幫助工程師來管理、維護系統,實現對數據中心內部數千設備的高度自洽管理和自運維。
京東云智能京維平臺內置節能寶模塊,利用大數據分析和AI算法,對制冷系統進行精細化管理,優化設備運行邏輯,確保冷機、水泵等設備在最高效率下運行。這種智能化的運維方式不僅顯著降低了PUE值,減少了能耗,還提高了數據中心的穩定性和可靠性。例如,京東云廊坊數據中心在節能寶的助力下,年均PUE降至1.19,實現了能效的大幅提升,為企業節省了巨額電費開支。
面向越來越多的智算服務需求,京東云則推出了基于高性能、低延遲的裸金屬服務器的MaaS(Model as a Service)服務。通過容器化的形式,京東云將GPU算力以及預裝模型、輔助工具等統一提供給客戶,幫助客戶更好的訓練自己的大模型。
京東云的裸金屬服務不僅適用于大型企業和科研機構,還通過靈活的配置和定價策略,滿足中小企業和個人用戶的多樣化需求。例如,其推出的GCS(GPU Computing Service)產品,以極低的成本提供了高性能的GPU算力服務,讓更多人能夠輕松體驗AI技術的魅力。
京東云數據中心
隨著算力需求的持續爆發和技術的不斷進步,算力基礎設施的重要性日益凸顯。京東云憑借其在高效能算力模塊、綠色液冷技術和智能運維平臺等方面的創新實踐,正逐步構建起一套領先行業的算力基礎設施體系。未來,隨著技術的不斷成熟和市場的持續拓展,京東云的創新與探索,將推動整個行業向更高效、更綠色、更智能的方向發展。