然而,人工智能技術的發(fā)展與落地應用還遠未成熟。對人工智能硬件而言,算力是技術實現(xiàn)的保障,這需要大量強有力的數(shù)據(jù)中心提供基礎支持。但傳統(tǒng)數(shù)據(jù)中心存在諸多痛點,亟需借力人工智能,開展數(shù)據(jù)中心的革命。
實際上,人工智能的發(fā)展少不了數(shù)據(jù)中心的支撐,與此同時,智能化是未來能源基礎設施發(fā)展的必由之路,在此過程中,人工智能也將助推數(shù)據(jù)中心朝智能化方向發(fā)展。
數(shù)據(jù)中心如何與AI擦出火花
數(shù)據(jù)中心成千上萬臺服務器為人工智能所需的計算能力提供了物理基礎,人工智能也將給數(shù)據(jù)中心帶來了新的革命,其帶來的積極影響主要有三個方面。
一是便于數(shù)據(jù)中心管理和控制。未來的數(shù)據(jù)發(fā)展必將走向軟件定義,但隨著數(shù)據(jù)中心呈現(xiàn)復雜化,人工處理的精力和能力都有限。如果通過人工智能利用其學習能力,對以往管理數(shù)據(jù)進行智能分析,就可得到可觀準確的決策。
二是降低數(shù)據(jù)中心能耗。數(shù)據(jù)中心是能耗大戶,巨額的電能費用已經(jīng)成為數(shù)據(jù)中心高速發(fā)展的瓶頸,很多互聯(lián)網(wǎng)巨頭的自建數(shù)據(jù)中心開始想盡一切辦法去降低能耗。人工智能技術就可以充分計算PUE值,再根據(jù)PUE值反推哪些因素對其影響最大,再去優(yōu)化這些部分,從而達到降低能耗的目的,提升數(shù)據(jù)中心運行效率。
例如,谷歌使用DeepMind提供的AI技術,在機房的能耗上獲得了大幅的削減,相應減少PUE值。具體而言,通過建立機器學習的模型,對機房的PUE指標趨勢進行預測,從而指導制冷設備的配置優(yōu)化,減少了閑置的用于制冷的電力消耗。這項技術能夠為谷歌減少15%的數(shù)據(jù)中心整體耗電量,節(jié)省下來的成本相當可觀。
三是數(shù)據(jù)中心的數(shù)據(jù)加工。數(shù)據(jù)中心擁有海量數(shù)據(jù),原有的計算方式效率太低。借助AI技術的智能化運維,就可以對這些數(shù)據(jù)進行深度分析,將數(shù)據(jù)進行過濾、整理、組建各種模擬模型,這些加工后的數(shù)據(jù)可能會產(chǎn)生巨大的價值。如果是數(shù)據(jù)中心的運行數(shù)據(jù),則可以通過智能運算,獲得提升數(shù)據(jù)中心運維水平機會;如果是數(shù)據(jù)中心的存儲數(shù)據(jù),則可以通過只能運算獲得行業(yè)市場狀況,進行人員特征的分析等。
數(shù)據(jù)中心運維日趨智能化
人工智能為數(shù)據(jù)中心提供了全新的機遇:未來可以建設智能化的數(shù)據(jù)中心,用來替代簡單重復勞動,在大量數(shù)據(jù)中提取規(guī)律性信息,大量方案中優(yōu)選最佳方案,復合數(shù)據(jù)環(huán)境下選擇最優(yōu)模式。
具體到智能運維領域,目前依靠已有的日志進行模式識別,可以實現(xiàn)實時監(jiān)控,潛在故障告警,實時故障定位,重點區(qū)域問題監(jiān)控,還可實現(xiàn)解決方案智能化推薦;在節(jié)能降耗方面,可實現(xiàn)整個基礎設施的智能化管理,提高可靠性,降低IT能耗,減少制冷消耗,從而節(jié)省電力。
然而,人工智能亦對數(shù)據(jù)中心帶來了不小的挑戰(zhàn)。據(jù)信通院研究數(shù)據(jù)顯示,在供電方面,AI使得數(shù)據(jù)中心功率密度從5kW提升到21kW及以上,給供配電基礎設施帶來挑戰(zhàn);在制冷方面,AI帶來的高功率帶來高散熱,風冷向液冷轉變;在邊緣計算方面,AI使得網(wǎng)絡限制數(shù)據(jù)需要端側處理,要建設好邊緣數(shù)據(jù)中心。
智能微模塊3.0將成為數(shù)據(jù)中心智能化里程碑
目前,行業(yè)內(nèi)已有不少智能化數(shù)據(jù)中心解決方案問世。以華為公司為例,2018年6月CEBIT2018期間,華為發(fā)布了"智能微模塊3.0"數(shù)據(jù)中心解決方案,主要圍繞i?(iPower,iCooling,iManager)特性,加入AI優(yōu)化運行算法,實現(xiàn)數(shù)據(jù)中心基礎設施整體功能的智能化融合,使得數(shù)據(jù)中心的高效智能如虎添翼。
智能微模塊3.0將通過智能化AI算法主動判斷運行狀態(tài),實現(xiàn)供電鏈路毫秒級故障檢測,秒級故障定位,毫秒級故障隔離,分鐘級故障恢復功能;突破行業(yè)困擾已久的冷媒泄漏檢測難題;提升數(shù)據(jù)中心全生命周期空間、電力、制冷及人力資源的高效利用。
iPower可實現(xiàn)供電全鏈路可視及告警精確定位,并擁有基于AI技術的電池管理系統(tǒng),配合毫秒級故障隔離,以保障供電的可靠性。
iCooling,基于AI的自優(yōu)化算法,讓溫控系統(tǒng)對效率自動尋優(yōu),降低數(shù)據(jù)中心PUE;溫控系統(tǒng)精確制冷,消除熱點隱患,提升數(shù)據(jù)中心運行的穩(wěn)定性。同時,AI算法支持空調(diào)冷媒容量的自檢測,提高可靠性。
iManager是智能微模塊3.0的大腦,主要通過智能故障定位與預警管理提高運維效率,面向業(yè)務管理增加收益、降低投資。通過數(shù)據(jù)中心自動化營維,實現(xiàn)能源基礎設施價值最大化。