毫無疑問,人工智能(AI)如今正在滲透到各種技術(shù)的各個方面,從癌癥的早期發(fā)現(xiàn)到理解各國的人類語言,以及在實時高分辨率視頻中分辨人臉。大量消費者應(yīng)用為主流需求、社會認可和人工智能的日益普及提供了動力和資金?,F(xiàn)在,人工智能思維系統(tǒng)正在快速地進入企業(yè)IT領(lǐng)域。
很多組織的IT團隊已經(jīng)看到人工智能成為許多任務(wù)的主流,其中包括網(wǎng)絡(luò)安全、IT運營、監(jiān)控、數(shù)據(jù)分析、業(yè)務(wù)流程自動化和基礎(chǔ)設(shè)施配置,以響應(yīng)緩慢增長的技術(shù)勞動力和快速增長的IT工作負載之間日益擴大的差距。
然而,對于數(shù)據(jù)中心而言,它們僅代表兩種主要應(yīng)用:用于數(shù)據(jù)中心的人工智能和用于人工智能的數(shù)據(jù)中心。
用于數(shù)據(jù)中心的人工智能
如今,智能產(chǎn)品已經(jīng)通過篩選大量繁雜的操作遙測數(shù)據(jù)、發(fā)現(xiàn)異常、關(guān)聯(lián)事件和確定根本原因來增強IT運營和分析。人們還看到人工智能技術(shù)添加到基礎(chǔ)設(shè)施配置和流程自動化中,如今幾乎每周都有新產(chǎn)品推出,并將人工智能帶入新的領(lǐng)域。隨著人工智能在IT運營中的成熟,它從解釋發(fā)生了什么、提出建議或識別異常的被動報告者轉(zhuǎn)變?yōu)轭A(yù)測失敗、自主調(diào)整過程的步驟以及自動部署或銷毀容量的更加主動的參與者。
但其最大的影響可能是數(shù)據(jù)中心將人工智能與數(shù)據(jù)中心信息管理(DCIM)系統(tǒng)結(jié)合起來,以提供數(shù)據(jù)中心的智能運營。2014年,谷歌公司使用DeepMind對其數(shù)據(jù)中心的風(fēng)扇、通風(fēng)和冷卻設(shè)備進行控制調(diào)整,將電力成本降低了40%。例如今年,谷歌公司為冷卻系統(tǒng)運營一個自我學(xué)習(xí)的算法,不是表明各種變化,而是直接自主調(diào)整控制,觀察結(jié)果,通過學(xué)習(xí)變得更加智能。對于量化結(jié)果來說還為時過早,但早期跡象看起來很有希望。
但現(xiàn)在只是才剛開始。這些智能產(chǎn)品將在機房的機架上虛擬地重新定位發(fā)熱的計算負載,以實現(xiàn)最佳溫度控制。其他DCIM供應(yīng)商也在研究人工智能算法,以根據(jù)不斷變化的硬件容差、功耗/成本趨勢、瞬態(tài)工作負載來改變數(shù)據(jù)中心環(huán)境溫度。除了監(jiān)控冷卻設(shè)備之外,人工智能管理配電系統(tǒng),其節(jié)省數(shù)據(jù)中心電力成本的潛力同樣引人注目。而如果人工智能在全球所有數(shù)據(jù)中心上擴展應(yīng)用的話,其影響可能是巨大的。
展望未來,新興的智能DCIM系統(tǒng)將數(shù)據(jù)中心物聯(lián)網(wǎng)傳感器數(shù)據(jù)(如熱量、氣流、振動,超聲波、功耗、水和煙霧檢測)整合到基于人工智能的平臺中,不僅可以檢測異常的數(shù)據(jù)中心行為,還可以確定問題的根源和原因。很快,這些智能DCIM系統(tǒng)不僅會說明某些事情失敗的時間、地點和原因,而且還會在事情出錯之前預(yù)測性地提醒操作人員,并且在某些情況下,還會自動禁止。
用于人工智能的數(shù)據(jù)中心
由于人工智能幾乎改變了每個數(shù)據(jù)中心應(yīng)用程序,它也在重塑軟件開發(fā)生命周期(SDLC)。傳統(tǒng)應(yīng)用程序通過程序化更改演變?yōu)槠涞讓哟a庫,然后使用嚴格測試進行驗證,并以受控、可管理、可重復(fù)方式部署到生產(chǎn)過程中。但是,基于人工智能的應(yīng)用程序不依賴于代碼更改或單向部署。相反,許多人在開發(fā)環(huán)境中發(fā)展更智能模型并將其部署到生產(chǎn)中,而其他人則在生產(chǎn)中進行自我訓(xùn)練,在那里他們從現(xiàn)實世界數(shù)據(jù)中學(xué)習(xí)并將這些知識傳播回開發(fā)環(huán)境。這種雙向細微差別對數(shù)據(jù)中心網(wǎng)絡(luò)拓撲結(jié)構(gòu)具有根本性影響。
無論是嵌入在更加傳統(tǒng)的第三方應(yīng)用程序中還是內(nèi)部開發(fā)的人工智能算法,在對盡可能真實且相關(guān)的大量數(shù)據(jù)進行訓(xùn)練時效果最佳。因此,在許多情況下,實時生產(chǎn)數(shù)據(jù)最適合訓(xùn)練,但在其他應(yīng)用中,非生產(chǎn)環(huán)境中的外部數(shù)據(jù)系統(tǒng),以及由此產(chǎn)生的智能模型被部署到生產(chǎn)中。在這兩種情況下,人工智能應(yīng)用程序不只是從非生產(chǎn)部門應(yīng)用到生產(chǎn)部門中,還在兩者之間應(yīng)用,而要求環(huán)境之間的網(wǎng)絡(luò)分割變得更具滲透性。
人工智能訓(xùn)練需要大量的計算和大量的數(shù)據(jù),數(shù)據(jù)越多越好。為了滿足這種對計算能力的巨大需求,人工智能訓(xùn)練越來越多地發(fā)生在以CPU為中心的非CPU服務(wù)器上,這些服務(wù)器基于GPU、FPGA、定制ASIC或?qū)S玫纳疃葘W(xué)習(xí)單元,可提供數(shù)量級的性能提升。不幸的是,這些計算系統(tǒng)耗電量大,功率密度高達30-50kW/機架,而且預(yù)測下一代計算系統(tǒng)的功率密度將達到驚人的100kW/機架。擁有并運營40多個數(shù)據(jù)中心的數(shù)據(jù)中心運營商Flexential公司云計算主管Jason Carolan表示,“如果沒有對諸如液體冷卻之類的冷卻遏制解決方案進行實質(zhì)性的重新設(shè)計,現(xiàn)有的大多數(shù)數(shù)據(jù)中心在規(guī)模上根本無法支持這一點。”
除了電源之外,這些超級計算機的運行速度與它們接收的訓(xùn)練數(shù)據(jù)一樣快。結(jié)果是對大型、廉價和閃電般快速的近線存儲的需求不斷增長,觸發(fā)了更快的控制器、協(xié)議(例如,NVMe和NVMe-oF)和存儲媒介(例如3D XPoint和3D NAND)的市場競爭。
在許多情況下,基于人工智能的應(yīng)用程序需要一個非生產(chǎn)訓(xùn)練環(huán)境,其計算和存儲容量比生產(chǎn)環(huán)境更高。這種情況促進新計算和存儲平臺部署到開發(fā)和訓(xùn)練環(huán)境中,以及最新的網(wǎng)絡(luò)、SAN和相關(guān)的監(jiān)控和管理工具的更多改變。這些演進需要對數(shù)據(jù)中心的服務(wù)器和存儲拓撲進行徹底的轉(zhuǎn)換。
即將到來的基于人工智能的產(chǎn)品和服務(wù)將成為運營、自動化、監(jiān)控、合規(guī)、安全、開發(fā)和云集成的分水嶺,而這些都將是數(shù)據(jù)中心大量基礎(chǔ)性改變的基礎(chǔ)。那些具有遠見卓識的數(shù)據(jù)中心運營商采用支持基于人工智能的應(yīng)用程序,并通過人工智能進行操作,他們可以應(yīng)對即將到來的市場風(fēng)暴。