谷歌使用機器學習(machine learning)——人工智能的一個分支來提高其數(shù)據(jù)中心的能源使用數(shù)據(jù)中心,谷歌數(shù)據(jù)中心主管喬。卡瓦在2014年歐洲數(shù)據(jù)中心大會上表示。
在第二天的會議上,他解釋并分享了谷歌的使用效率(PUE)與他們總結(jié)的一些提高數(shù)據(jù)中心能源效率的技巧。
“在過去的八年,數(shù)據(jù)中心行業(yè)廣泛的采用PUE作為一個用來提高數(shù)據(jù)中心的能源效率的參數(shù),”卡瓦說。“但PUE在其目前的形勢下還是有其局限性。這是因為現(xiàn)代的數(shù)據(jù)中心是一個復雜的,由多種機械,電力設備和控制系統(tǒng)相互作用形成的綜合體。
“在我們追求極致效率的過程中,我們找到了一款新的工具——機器學習。”
在解釋谷歌如何使用機器學習,并分享其數(shù)據(jù)中心工具的技術白皮書 之前,卡瓦為廣大的數(shù)據(jù)中心運營商給出了一些建議:
挑戰(zhàn)你的假設
數(shù)據(jù)中心的運營商和管理者不應該只是簡單地被動接受所賦予的指標和工具,而應當考慮:這些指標和工具到底有多好,多實用?是否真的能幫助數(shù)據(jù)中心減少設備的能源使用。
突破操作參數(shù)的界限,但要巧妙地做到這一點
“突破界限,但要巧妙地通過在試驗環(huán)境的虛擬機上測試你的新想法,然后再將其投入生產(chǎn),來做到這一點。”
盡可能使用所有的數(shù)據(jù)
“如果你想獲得更好的效率,數(shù)據(jù)是非常重要的。每個數(shù)據(jù)中都蘊含著故事,但要充分利用所有數(shù)據(jù)可能并不容易。所以,要準備好使用相關的工具,以便能夠從所有的數(shù)據(jù)中發(fā)掘出隱藏的寶貴東西。”
對能源效率的癡迷
這將是有助于建立起一個可持續(xù)的數(shù)據(jù)中心設施的唯一的方法,卡瓦說。節(jié)約能源就等于節(jié)約成本。“我們沉迷于節(jié)約能源,我們一直在尋找更進一步減少我們的能源使用的方式。”
總是提醒自己PUE值應該是多少,而不是當前是多少
“除非你知道PUE值應該是多少,否則你永遠不知道自己做得好還是差。”
考慮各種可能性
機器學習只是谷歌已經(jīng)確定能夠帶來更有效的能源使用的一個可能性。“但是,肯定還有其他可能的途徑能夠幫助提高數(shù)據(jù)中心的能源效率。因此我們需要不斷探索。”卡瓦說。
谷歌如何使用人工智能提高PUE
“我們數(shù)據(jù)中心團隊的工程師Jim Gao對于機器學習相當癡迷。”卡瓦說。“在意識到我們可以利用數(shù)據(jù)中心的數(shù)據(jù)來做更多的事情后,Jim研究了機器學習,并開始建立預測模型來提高數(shù)據(jù)中心的性能。”
團隊的機器學習模型就像其他的機器學習模型一樣,如語音識別(通過計算機分析大量數(shù)據(jù)以識別模式并從中“學習”)。
“最好是讓機器能夠進入大量的數(shù)據(jù),因為他們不會像人類一樣由于長時間搗弄數(shù)字而厭煩,而且他們更準確。”卡瓦說。而人類想要看到的所有變量:包括IT負載、外面的空氣溫度等的相互作用也是相當困難的。
數(shù)據(jù)中心團隊利用其在日常工作中通過日常設施運行所收集的數(shù)據(jù),并將其通過與模型來運行,幫助做出復雜的交互。該模型將評估與數(shù)據(jù)中心的能源分析相關的19個不同的變量:如服務器負載,運行冷水機組的數(shù)量,外界空氣溫度,室外空氣濕度,服務器負載等。
由此產(chǎn)生的相關見解,給了該團隊如何探索節(jié)能提升效率的信息,甚至包括執(zhí)行維護任務或技術更新。
“Jim的模型現(xiàn)在預測PUE值的準確率為99.6%.這意味著我們可以想出新的方法來從我們的運營中提升效率。”卡瓦說。
幾個月前,谷歌讓其一家數(shù)據(jù)中心的一些服務器離線脫機了幾天。“通常情況下,這將使數(shù)據(jù)中心能源效率更低。但我們利用Jim的模型來暫時的改變我們冷卻裝置,在這段時間內(nèi)降低了PUE.
“這樣小的調(diào)整,在一個持續(xù)的基礎上,能夠帶來顯著的能源和成本節(jié)省。”
卡瓦分享的技術白皮書詳細介紹了Gao的機器學習模型和對數(shù)據(jù)中心運營商,工程師和管理人員查看系統(tǒng)的要求。
“這并不需要一個超級集群或超級計算機來實現(xiàn)。我們實施PUE機器學習模型是在一臺服務器上運行的。你也可以將其在一臺臺式機上運行,這完全取決于企業(yè)的規(guī)模。”他說。
但他同時警告說。“模型的關鍵在于你的數(shù)據(jù)。如果我們分析的是一堆垃圾數(shù)據(jù),那么我們得到的也是一堆垃圾。
“我們已做相當多的數(shù)據(jù)清理工作。如果你企業(yè)打算走這條路,我會建議你企業(yè)的工程師在機器學習方面先做一點研究,否則準確度將不會很高。”