人工智能在提升數據中心效率以及擴展業務方面的潛力可分為以下四個主要類別:
· 電源管理:基于人工智能的電源管理有助于優化加熱和冷卻系統,從而降低電力成本,減少員工人數,提高效率。該領域的代表性供應商包括施耐德電氣、西門子、Vertiv和伊頓公司。
· 設備管理:AI系統可以監控服務器、存儲和網絡設備的運行狀況,檢查系統是否保持正確配置,并預測設備何時會出現故障。據Gartner稱,AIOpsIT基礎設施管理(ITIM)類別的供應商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。
· 工作負載管理:人工智能系統可以自動將工作負載實時移動到最高效的基礎設施上,包括在數據中心內部,以及在混合云環境中,在prem、云和邊緣環境之間。有越來越多的小型公司提供基于人工智能的工作負載優化,包括Redwood、TidalAutomation和Ignio。思科(Cisco)、IBM和VMware等重量級企業也有產品。
· •安全性:人工智能工具可以“了解”正常網絡流量的情況,發現異常情況,區分需要安全從業者注意的警報的優先級,幫助對出了什么問題的事后分析,并為填補企業安全防御漏洞提供建議。提供此功能的供應商包括VectraAI、Darktrace、ExtraHop和Cisco。
綜上所述,人工智能可以幫助企業創建高度自動化、安全、自我修復的數據中心,這些數據中心幾乎不需要人工干預,并且能夠以高水平的效率和彈性運行。
戴爾技術公司全球CTO辦公室的杰出工程師Tabet解釋說:“人工智能自動化可以擴展到超出人類能力的水平來解釋數據,收集優化能源使用、分配工作負載和最大化效率所需的必要見解,以實現更高的數據中心資產利用率。”。
當然,就像自動駕駛汽車的承諾一樣,自動駕駛數據中心還沒有出現。在數據中心,存在著阻礙人工智能突破的重大技術、操作和人員配備障礙。如今,采用技術才剛剛起步,但潛在的好處將使企業不斷尋找機會采取行動。
電源管理利用服務器工作負載管理
據估計,數據中心將消耗全球3%的電力供應,造成約2%的溫室氣體排放,因此,無論是為了省錢,還是為了環保,那么多企業都在認真研究數據中心的電源管理。
451Research的高級分析師丹尼爾·比佐(DanielBizo)表示,基于人工智能的系統可以幫助數據中心操作員了解當前或潛在的冷卻問題,例如,由于高密度機柜堵塞氣流、HVAC裝置性能不佳或冷熱通道之間的空氣密封不足而導致的冷空氣輸送不足。
Bizo說,人工智能承諾提供“不僅僅是良好的設施設計所能帶來的好處”。人工智能系統在數據中心層“可以通過關聯暖通空調系統數據和環境感知讀數來學習設備”。
IT咨詢和咨詢公司StorageIO的創始人格雷格·舒爾茨(GregSchulz)補充說:“電源管理是一個很容易實現的成果。”今天,它是關于生產力的,關于每BTU完成更多工作,每瓦能源完成更多工作,這意味著工作更智能,讓設備工作更智能。”
還有一個容量規劃的角度。除了尋找熱點和冷點之外,人工智能系統還可以確保數據中心為適當數量的物理服務器供電,并且在需求臨時激增的情況下,有能力啟動(和關閉)新的物理服務器。
Schulz補充說,電源管理工具正在開發連接到管理設備和工作負載的系統的掛鉤。例如,如果傳感器檢測到服務器運行太熱,系統可能會快速自動地將工作負載轉移到未充分利用的服務器上,以避免可能影響任務關鍵型應用程序的潛在停機。然后系統可以調查服務器過熱的原因——可能是風扇出故障(HVAC問題)、物理組件即將崩潰(設備問題),或者服務器剛剛過載(工作負載問題)。
人工智能驅動的健康監控、配置管理監督
數據中心充滿了需要定期維護的物理設備。人工智能系統可以超越定期維護,幫助收集和分析遙測數據,從而確定需要立即關注的特定區域。”人工智能工具可以嗅出所有這些數據和斑點模式,以及異常點,”Schulz說。
Bizo補充說:“健康監測從檢查設備配置是否正確以及性能是否符合預期開始。”由于有成百上千個IT機柜和數萬個組件,這些平凡的任務可能是勞動密集型的,因此并不總是能夠及時徹底地執行。”
他指出,基于大量感官數據日志的預測性設備故障模型可以“發現一個即將出現的組件或設備故障,并評估其是否需要立即維護,以避免任何可能導致服務中斷的容量損失。”
JuniperNetworks負責企業和云營銷的副總裁MichaelBushong認為,企業數據中心運營商應該忽略一些與人工智能相關的過度宣傳和炒作,而專注于他所說的“無聊的創新”
是的,人工智能系統可能有一天會“告訴我問題出在哪里,并加以解決”,但是到了這一點,許多數據中心運營商會接受“如果出了問題,請告訴我要去哪里看”,Bushong說
依賴關系映射也是AI有用的一個重要但不是特別令人興奮的領域。如果數據中心經理正在對防火墻或其他設備進行策略更改,可能會產生什么意外后果?”如果我提出一個改變,知道爆炸半徑范圍內可能有什么是很有用的。
保持設備平穩、安全運行的另一個重要方面是控制所謂的配置漂移(configurationdrift),這是一個數據中心術語,指的是隨著時間的推移,臨時配置的變化會導致問題的產生。Bushong說,人工智能可以作為“額外的安全檢查”來識別即將發生的基于配置的數據中心問題。
人工智能與安全
Bizo認為,人工智能和機器學習“可以通過對事件進行快速分類和聚類來簡化事件處理(事件響應),從而識別出重要事件并將其與噪聲分離開來。更快的根本原因分析有助于操作員做出明智的決定并采取行動。”
人工智能在實時入侵檢測中特別有用,Schulz補充道?;谌斯ぶ悄艿南到y可以檢測、阻止和隔離威脅,然后可以回去進行法醫調查,以確定到底發生了什么,黑客能夠利用哪些漏洞。
在安全操作中心(SOC)工作的安全專業人員經常會收到過多的警報,但基于人工智能的系統可以掃描大量的遙測數據和日志信息,從而清除日常任務,從而使安全專家能夠騰出時間來處理更深層次的調查。
基于人工智能的工作負載優化
在應用程序層,AI有可能自動將工作負載移動到適當的著陸點,無論是在內部部署還是在云端。”AI/ML將來應該根據性能、成本、治理、安全、風險和可持續性的眾多規范,實時決定在哪里放置工作負載。
例如,工作負載可以自動移動到最省電的服務器,同時確保服務器以最高效率運行,即70-80%的利用率。Bizo說,人工智能系統可以將性能數據整合到等式中,因此對時間敏感的應用程序在高效服務器上運行,同時確保不需要快速執行的應用程序不會消耗過多的能量。
基于人工智能的工作負載優化引起了麻省理工學院研究人員的注意,他們去年宣布他們開發了一個人工智能系統,可以自動學習如何在數千臺服務器上調度數據處理操作。
但是,正如Bushong所指出的,現實情況是,如今的工作負載優化是像亞馬遜、谷歌和Azure這樣的超大規模公司的專利,而不是一般的企業數據中心。原因有很多。
實施人工智能的挑戰
優化和自動化數據中心是正在進行的數字化改造計劃的一個組成部分。戴爾的Tabet補充道,“借助COVID-19,許多公司現在都在尋求進一步的自動化,推動人工智能驅動、能夠自我修復的‘數字數據中心’的理念。”
谷歌在2018年宣布,已將其數個超規模數據中心的冷卻系統控制權轉為人工智能程序,該公司報告稱,人工智能算法提供的建議使能源使用量減少了40%。
但是,Bizo說,對于那些名字不是谷歌的公司來說,在數據中心使用人工智能“在很大程度上是一種理想”。一些AI/ML特性在事件處理、基礎設施運行狀況和冷卻優化中可用。但是,AI/ML模型要取得比目前標準數據中心基礎設施管理(DCIM)更明顯的突破還需要更多年的時間。與自主汽車開發非常相似,早期階段可能很有趣,但與它最終承諾的突破性經濟/商業案例相去甚遠。”
Tabet認為,一些障礙是“需要雇傭或培訓合適的人員來管理系統。另一個需要注意的問題是數據標準和相關體系結構的需要。”
Gartner這樣說:“AIOps平臺成熟度、it技能和運營成熟度是主要的阻礙因素。高級部署面臨的其他新挑戰包括數據質量和“IT基礎設施和運營團隊”缺乏數據科學技能。
Bushong補充說,最大的障礙一直是人。他指出,外雇數據科學家對許多企業來說是一個挑戰,對現有員工的培訓也是一個障礙。
另外,Bushong說,員工抵制技術的歷史由來已久。他指出,軟件定義網絡(SDN)已經存在了十年,但仍有四分之三以上的IT運營仍由CLI驅動。
“我們必須相信,各種基礎設施的運營商準備把控制權讓給人工智能,”Bushong表示。“如果一群人還不相信空管員能做出決定,那么你怎么訓練、教育和安慰一群人,讓他們做出如此重大的轉變呢?業內普遍的態度是,如果我這么做,我就會失業。”
這就是為什么Bushong建議企業在人工智能方面采取那些小而乏味的步驟,而不是陷入經常圍繞一項新技術的炒作中。