數據中心的管理日益復雜,時刻都有龐大而復雜的數據信息需要處理,各種各樣的因素隨時有可能導致突發性事故的發生,而造成的損失也是驚人的。這些復雜的因素很難通過直觀的方式分析和理解,機器學習的介入有一定的必然性。Google數據中心副總裁Joe Kava告訴我們采用神經網絡可以“預見”數據中心的“未來”,從而為數據中心的工程師們提供最優的方案,Google具體是怎樣做的?作者Richer Miller為我們帶來了精彩的分析。
Google將機器學習和人工智能應用到強大的數據中心,致力于讓數據中心更高效。近日,在Data Centers Europe 2014的一份簡報中,Google的數據中心副總裁Joe Kava告訴我們Google已經采用神經網絡來分析數據,該神經網絡系統可以收集服務器群的相關信息,并提供改進方案。
實際上,谷歌已經制造出了一臺超級計算機,這臺計算機比谷歌的工程師們更了解數據中心。目前,數據中心仍然由人工控制,但Joe Kava告訴我們,神經網絡的使用將使Google服務器群的效率達到一個全新的高度,這甚至讓制造它的工程師們望塵莫及。
谷歌已經擁有了多個高效的數據中心,使用人工智能后,Google將能夠預見“未來”,通過模擬出數以千計的可能情況,了解到未來數據中心的運行狀況。
在早期,神經網絡預測谷歌電力使用效率的準確率已經達到99.6%。這種方法帶來的效率提升看起來很小,但當其應用到具有數千個服務器的數據中心時,就可以節約下大量的成本。
為什么要采用機器學習和神經網絡?主要的原因是數據中心日益復雜,這對谷歌來說是個挑戰,Google利用傳感器從數以億計的數據點收集有關其基礎設施及能源使用狀況的信息。
谷歌的神經網絡是由Jim Gao創建的,由于他對大型數據集有很強的分析能力,他的同事給他取了個綽號——“天才小子(Boy Genius)”。Gao應用計算流體動力學來做冷卻分析,利用監測數據創建了一個服務器房間里的氣流3D模型。
Gao認為創建一個模型來跟蹤一組廣泛的變量是有可能實現的,這些變量包括IT負載、天氣條件,以及冷卻塔、水泵和換熱器(這些設備用來給谷歌服務器降溫)的運作情況。
Kava在一篇博客中寫道:“計算機擅長的是在數據中發現隱含的信息,所以Jim采用了我們日常操作過程中收集的數據,并將這些數據放到一個模型中運行,目的是理解普通人(Jim的團隊)可能注意不到的復雜互動的意義,如今Jim的模型在預測PUE(Power Usage Effectiveness,電源使用效率)時的準確率已經達到了99.6%。這意味著他可以使用該模型提出新方案,從我們的操作中獲得更高的效率。”
Gao倡導發展和使用機器學習,并將其稱之為“20 percent project”,谷歌鼓勵員工在特定工作職責之外花大量時間進行創新。Gao原先并不是人工智能方面的專家,為了了解更多有關機器學習的知識,他學習了斯坦福大學Andrew Ng教授的課程。
神經網絡模仿人類大腦的工作原理,讓計算機在沒有顯式編程的情況下,自動適應和“學習”。谷歌的搜索引擎往往被看作是這類機器學習的典型,這也是該公司主要研究的一個重點。
Kava解釋說:“該模型實際上就是一系列的微分方程,你需要對數學有所了解,該模型能夠了解這些變量之間的交互。”
Gao的第一項任務是研究數字,標識出影響Google數據中心能源效率的重要因素,以PUE為標準。他將這些因素縮小到19個變量,然后設計了神經網絡,即一個可以分析大型數據集以識別模式的機器學習系統。
Gao在他的倡議白皮書中寫道:“大量可能的設備組合以及它們的設定值使最優效率難以確定,在數據中心,通過硬件(機械和電氣設備)和軟件(控制策略和設定值)有許多可能的組合。受到時間既定、IT負載頻繁波動和天氣狀況的限制下,測試每一種可能組合以實現效率最大化是不可行的,更不用說還要維持一個穩定的DC環境。
說到硬件,實際上機器學習不需要多么強的計算能力,Kava告訴我們,該機器學習系統在單個服務器上就可以運行,甚至可以運行在高端臺式機上。
該系統已經被應用到Google數據中心,該機器學習工具能夠提供建議,對PUE進行改進;或者在能源設施升級過程中,對數據中心負載遷移的改進;也可以對冷卻系統中多個部分的水溫調整。
Gao還寫道:“谷歌(數據中心)的實際測試表明,機器學習是使用現有傳感器為DC能源效率建模的一種有效方法,可以顯著地節約成本。”
Kava告訴我們:“該工具可以幫助谷歌對未來設計進行模擬和完善,但我們不需要擔心機器奪走人類的控制權——近期,Google的數據中心還不太可能擁有自我意識。雖然Google熱衷于實現自動化,最近又收購了多家機器人公司,但新的機器學習工具目前還不可能控制一個數據中心。”
Kava說:“數據中心仍然需要人類對許多事務作出良好的判斷,我仍然希望我們的工程師對機器提供的建議進行審查。”
從Google構建服務器群的方式中,我們或許可以看到神經網絡帶來的好處。Kava說:“我可以想象出在數據中心的設計周期中使用神經網絡的情形,我們可以將它作為一個具有前瞻性的工具使用,用來測試設計的變化和創新,將來我們會找到更多的用例。”
Google在Gao的白皮書中分享了機器學習的方法,期待其他超大規模數據中心的運營商也能開發類似的工具。
Kava說:“這不是只有Google或者Jim Gao才能做到的事情,我很樂意看到這類分析工具被更加廣泛的使用。我認為這個行業可以從這類工具中受益,它是一個可以提供效率的好工具。”