對AI應用程序來說,時機已經成熟。但在企業數據中心實施人工智能時會對網絡、存儲和計算基礎設施造成障礙。
盡管人工智能的概念自50年代以來一直存在,但它在IT領域的主流應用程序剛剛開始出現。根據Gartner的研究,到2021年,深度學習和人工智能等工作量將成為數據中心設計和架構的重要因素。
AI應用程序將影響每一個垂直行業和工業領域,因此采取積極的措施來規劃、構建和培育數據中心的深度學習(deep learning)和人工智能實踐非常重要。
大多數組織還沒有實施AI。在大多數情況下,超大規模公共云提供商(如Google和Amazon Web Services)都是早期采用者,而絕大多數終端用戶都在起步階段就舉步維艱。
Gartner研究總監Chirag Dekate表示:“由于這是個持續變化的目標,很難初始化開發AI和深度學習環境的實踐。這個想法是驚人的,但是當您著手開發和設計解決方案時,您就開始遇到問題了,而且這是很多最終用戶當前所處的位置。”
來自存儲的挑戰深度學習和AI應用程序需要大量的數據來訓練、測試和驗證神經網絡算法,這可能為數據中心管理員帶來存儲挑戰。
Dekate表示:“如果您的機器學習算法基于回歸,您可以使用有限的數據集,但是對于更先進的高價值神經網絡生態系統,您會逐漸遇到規模問題。傳統的網絡連接存儲架構可以交付即時的結果,方便部署和開箱即用的效率,但它們也會在I/O擴展和延遲方面顯示出問題。
部分初創公司正在嘗試高帶寬并行文件系統,以增加吞吐量并實現規模化,但這些還都只能算是外圍方法,Dekate表示。
并行文件系統涉及從元數據服務器到存儲目標的許多移動部件,必須進行優化、調整和調試以最高效率運行。他說:“它們[并行文件系統]是非常復雜的,需要經歷嚴苛的考驗。”
然而,大數據分析——另一項需要大量數據的計劃——已經為許多IT組織提供了一個平臺,能夠重新調整存儲策略。
供職于451 Research的研究經理Christian Perry表示:“當AI成為企業可部署的現實時,從存儲的角度來看,由于大數據和分析的原因,容量方面已經解決了。物聯網也被寄予期望在特定組織驅動大規模應用的規劃,我認為基礎設施已經具有處理大型存儲需求的能力。”
來自網絡的挑戰
深度學習框架的有限性產生了規模方面的挑戰——對于可擴展性的網絡架構,性能明顯超出單一計算節點。為了規模化以提供更高的效率,管理員必須升級和改進他們的網絡,但大多數人還沒有將此舉當做他們的首要任務。
Dekate說:“如果您仔細觀察深度學習算法,會發現它們的溝通密集度非常之高。嘗試為這樣一個聊天應用程序堆棧構建解決方案對于組織如何著手開始將是非常困難的。”
隨著數據中心網絡架構師為AI準備其基礎架構,他們必須優先考慮可擴展性,這將需要高帶寬、低延遲的網絡和像InfiniBand或Omni-Path這樣的創新型架構。
關鍵是為實現自動化而保證所有選項的開放性,Perry說。自動數據中心基礎設施管理技術的市場正在快速成熟,這表明自動化在數據中心行業越來越被廣泛地接受。
Perry說:“還有自動化功能已經具備應用條件,這將有助于為AI的引入奠定基礎。”
來自計算方面的挑戰
數據中心的計算端對AI應用程序的實施面臨著異常嚴峻的挑戰。基于CPU的環境可以處理絕大多數機器學習和AI工作負載,從隨機森林回歸(random forest regression)到集群。但當IT深入到深度學習能力之中,這需要遍歷多個大型數據集并部署可擴展的神經網絡算法,那么基于CPU的生態系統可能還不夠。為了提供計算能力,IT部門必須集成如NVDIA GPU、Advanced Micro Devices GPU和Intel Xeon Phi等技術。
“您需要混合或異構架構,其核心處理器由專用加速器填充,為您的應用程序提供更大的計算密度和更高的吞吐量,”Dekate說。 實施GPU還使管理員能夠優化數據中心基礎架構以實現功率效率。當管理員將基于GPU的生態系統進行單一節點特別擴大時,它們對電源的需求將更加迫切。
Google等超大規模供應商已認識到這一需求;該公司負責AI業務的機構DeepMind將將其數據中心冷卻所需的能源降低了40%。但是,在更廣泛的市場中幾乎所有的企業數據中心都缺乏Google具備的資源,將無法復制這一模式來解決效率問題。
對于具有傳統生態系統的大多數企業來說,實施這些創新技術不僅復雜—同時價格昂貴。
例如,搭載了最新Xeon Phi的芯片價格高達6,294美元—它是英特爾迄今為止最昂貴的芯片。而想要整合深度學習能力的IT團隊不僅僅需要一個芯片,他們需要高密度的加速卡。這些高密度計算配置可用于超大規模環境,醫療保健機構、金融服務等。 Dekate說:“我們已經看到高密度產品的應用—大約2個CPU配上8個GPU的比例密度。這代表著在此環境中,某一服務器節點上某一服務器單元的成本可能高達15萬美元。”
有辦法減輕這些技術的高價格標簽。許多組織使用公有云,在某些情況下,使用IBM Watson,在進行任何深層的內部承諾之前,測試AI應用程序的可靠性。 此外,服務器更新的時間范圍遠遠超出傳統的三年更新時間表,Perry說。現在,許多組織每五到七年更新服務器。
因此,他們的IT預算也得到擴展,可以應用到能夠滿足內部所需的高價基礎設施之上。 Perry說:“我們已經看到這在融合基礎架構上的應用,而且超級融合基礎架構也正在應用。沒錯,這都是非常昂貴的門檻,但轉型是非常值得的。”