在本文中,我們將幫助您企業數據中心準備并應對由AI應用程序為企業本地部署環境和云基礎架構所帶來的限制。同時,我們還采訪了數據中心業界的同行們,邀請他們提供了相關的指導性建議,其中包括著重強調了企業數據中心與服務器供應商密切合作的重要性,這些服務器供應商可以為您的企業從早期階段盡快過渡到穩步的高級生產階段,進而充分利用AI功能提供相應的指導。
企業數據中心究竟應該如何應對?
IDC認為,目前正在考慮實施人工智能計劃或正在從實驗階段轉向更為成熟的人工智能部署階段的企業用戶可能需要隨著時間的推移逐步推進其實施方案,以下,我們將與讀者朋友們討論幾種AI開發方法。
1、從小型到中型AI項目的逐步推進
對于小型AI項目計劃逐步向中型過渡的企業用戶而言,我們建議在內部開發解決方案。這種方法有很多優點。通過協作實驗,企業的開發人員、業務部門、數據分析師或數據科學家和基礎架構團隊將能夠獲得重要的新技能,同時為業務創建量身定制的解決方案。數據分析師和數據科學家沒呢可以準備數據集和相關模型,開發人員則可以測試框架,而基礎架構團隊則可以評估要開發什么硬件以及用于生產的內容,并且業務部門將有機會設置解決方案的參數。但是,我們建議僅僅將這種方法用于獨特的AI項目。如果企業所需的解決方案可以作為商業軟件在市場上可以隨時獲得,那么商業化的軟件包將通過實現快速部署的業務優勢遠遠超過企業內部開發所帶來的好處。
IDC建議,企業可以從小型和企業本地部署項目計劃開始著手。這種趨勢將是從一個與其他環境相隔離的專用服務器開始,但同時也需要意識到集成整合最終會變得重要。如果有AI培訓組件的話,那么該環境將需要能夠訪問用于培訓的數據,并且硬件需要能夠進行強大的并行處理,理想情況下具有足夠數量的加速器,例如圖形處理單元(GPU)。環境可以由AI解決方案傾向于喜歡的集群,甚至包括具有多個節點的融合系統組成。但是,對于第一代AI基礎架構而言,規?;瘷M向擴展服務器中的硬分區也可以奏效。虛擬機或超融合系統則不太合適。如果數據對業務至關重要的話,那么承載數據的橫向擴展企業級服務器中的硬分區則可能會很有用,因為企業組織不需要將數據遷出其安全環境。請注意,只有在Linux上運行的AI開發才有大量的開源框架。
一旦企業用戶得到基礎架構團隊、開發團隊和數據科學家們對解決方案感到滿意之后,就可以運行該解決方案進行生產了,并能夠逐步體驗檢測到軟件和硬件的功能和局限性,屆時企業將能夠更好地確定下一步何去何從。這些后續步驟可能包括繼續構建內部部署的內部功能;實施升級或擴展基礎架構;添加云組件或聘請其他服務商,例如VAR經銷商或顧問等。
在這個反復試驗階段,企業的基礎設施團隊徹底調查新的基礎設施解決方案是至關重要的。如前所述,AI系統在單核和雙核服務器集群上運行良好,每核具有較高的性能和I/O參數以及GPU等加速器。該團隊不僅應該考慮從其傳統供應商處采購服務器產品,同時也應該考慮其他的服務器供應商,尤其是那些提供完整的AI硬件/軟件堆棧的服務器產品。其中一些供應商在部署AI系統的所有階段均能夠為企業用戶提供幫助,從硬件的選擇和優化到軟件堆棧,直至后期的部署和咨詢服務。我們建議選擇企業客戶應該對那些已經展示出了對AI和深度學習的基礎架構要求有著深入了解的供應商。
確保您企業的服務器供應商可以在第一個實驗階段提供相關的建議,即使該階段是在企業現有的硬件設備上部署實施的,這些建議也可以指導企業組織進行內部的部署或混合內部云擴展。理想情況下,服務器供應商可以通過幾個乃至所有的小型到大型的場景指導企業用戶的部署工作。換句話說,這些服務器供應商擔任企業客戶小型項目計劃的顧問,同時也擔任其下一階段的更大的人工智能實施計劃的顧問。
2、更大規模的AI項目計劃的實施
企業實施更大的AI項目計劃將得益于外部的支持。開發全面的人工智能解決方案的時間、成本和復雜性旨在為企業組織帶來關鍵業務的創新,但除了擁有相當足夠的資源的大型企業組織之外,一般的企業則可能不太適合采用內部試錯法。第三方人工智能解決方案提供商可以像增值經銷商或系統集成商那樣,幫助企業客戶快速實施解決方案,但他們的靈活性會大大降低,并且并不適合獨特的業務需求。非常大型的項目計劃則可以從咨詢合作伙伴中受益。企業客戶咨詢其合作伙伴的成本往往很昂貴,并且可能會對這些合作伙伴產生長期的依賴關系,其初始部署時間通常很長。另一方面,最終的解決方案將完全根據企業組織的需求量身定制,并且如果執行得當,則可與數據中心實現完美的集成整合。
對于大型的項目計劃而言,與具有AI專業知識以及擁有涵蓋了整個硬件/軟件堆棧的一系列AI產品的服務器供應商合作也能夠為企業客戶帶來明顯的優勢。服務器供應商通常比第三方咨詢合作伙伴的咨詢成本便宜,并且比其他解決方案提供商對其自身硬件的優化和擴展有更多的了解。但請務必確保供應商具有擴展AI應用程序基礎架構和深度學習的能力,因為規?;s放加速的計算節點并不像僅僅使用CPU來擴展計算節點那樣簡單。
我們建議,企業的業務部門、開發團隊和基礎架構團隊密切參與這一過程,盡可能確保其AI解決方案是定制化的,并通過培訓開發相關技能。確保企業的該項目最終不會以只有服務器供應商或解決方案提供商才理解的“黑盒”解決方案的方式結束,這種解決方案無法實現很好的擴展,也無法與數據中心集成整合,并且會影響性??能或在數據量開始增加時帶來局限性。換句話說,這些方法都不會讓企業基礎架構團隊的任務變得更加簡單。AI服務器供應商、解決方案提供商和顧問將提出硬件方面的建議,并對與企業內部開發相同的參數進行批判性的評估,包括:加速性能、I/O、可管理性和可擴展性。
請注意,就方法和部署而言,可以將上述這些場景中的幾個組合起來。例如,企業內部構建的解決方案可以與云中的SaaS解決方案相結合以實現混合解決方案,或者企業內部構建的解決方案可以跟隨VAR經銷商更大的方案的實施而實施。最后,IDC發現,大多數企業組織對于其AI項目計劃并沒有明確估算其基礎架構或軟件的成本。企業需要為AI項目制定指標,包括軟件、基礎設施和人工成本方面的目標。他們還應計算投資回報潛力(通過提高生產力,降低成本或增加收入等方面的計算),并確保他們在項目開始時收集有關這些指標的數據。
3、選擇企業內部部署還是云服務?
對于一些較大的AI項目計劃,可能存在SaaS解決方案。但是與任何基于云計算的軟件解決方案一樣,可定制性將受到限制,可擴展性將取決于提供商的基礎設施,性能也會如此。而且,當數據量或交易數量快速增長時,成本可能會變得不利。對于關鍵業務數據、敏感數據或需要遵守法規要求的數據而言,需要對SaaS解決方案的安全性進行評估。
IDC發現,在部署了人工智能應用出現加速基礎設施的企業中,有65%的企業在其內部部署了這些解決方案:22%的企業選擇了僅僅只在企業內部部署;而43%企業選擇了內部部署和云部署的混合模式。大多數企業表示他們已經發現到目前為止云計算體驗是令人滿意的,并將把AI工作負載轉移到云服務。然而,這方面的遷移并不會影響未來24個月內所有可能部署中認知負載的整體分布;換句話說,企業內部部署的比例將仍然保持不變。某些AI使用案例并不適用于企業內部部署或云部署環境(但也存在一些例外情況)。基于數據安全問題的考慮,某些人工智能使用案例(例如醫療診斷和治療)采取企業內部部署往往比云服務更為流行。然而,全渠道運營的商品化在云中的普及率稍高。盡管如此,企業內部部署、云計算,當然還有混合策略各自均有其明確的角色作用。后者很可能成為最有利的部署方法。
4、加速器
在本文中,我們曾多次提及加速器作為克服AI系統基礎架構性能瓶頸局限性的重要方法,這對于采用深度學習算法的AI系統尤其如此,需要大量的計算能力來訓練。在某些情況下,使用加速器對深度學習算法進行訓練可以將迭代時間從幾天縮短到幾小時。
根據IDC的定義,加速計算是通過將部分處理卸載到鄰近的硅子系統——如圖形處理單元和現場可編程門陣列(FPGA)上來加速應用程序和工作負載的能力。隨著企業尋求解決方案來克服CPU處理工作負載(如AI應用程序)的局限性,加速計算正在進一步獲得企業用戶的青睞。
GPU對于企業特別具有吸引力,因為它們可以通過現成的方式獲得,并且可以使用標準庫,這些庫可以很容易地集成到應用程序中。然而,其他可提供更高性能功耗比率的技術,如FPGA、多核處理器和專用集成電路(ASIC)也開始受到關注:
- 一款GPU執行基于神經網絡層的矢量和矩陣計算。GPU以并行的方式實現,提供了訓練速度的大幅改進和更高的能效。
- 多核微處理器針對并行或矢量化進行了優化,無需使用外部加速器。多核微處理器擁有比典型多核CPU更多的內核,并且是旨在最大化處理器、高速緩存和內存之間的數據傳輸速率的體系架構的一部分。其還執行CPU的傳統功能。
- 一款協處理器是用于加速并行工作負載的PCIe卡。它集成了多核處理器,并包含專用的高速緩存、內存和操作系統內核,但需要CPU進行引導。
- FPGA是一種集成電路,設計成由客戶在制造后使用硬件描述或高級語言進行配置。FPGA由一系列可編程邏輯塊、互連和I/O塊組成。它們也可以重新配置。
- ASIC是專用集成電路,不能在制造后重新配置。
- 互連是GPU、FPGA或ASIC與CPU之間的數據連接。PCIe互連的最大單向帶寬約為16GBps,而NVIDIA的NVLink 2.0的最大單向帶寬則為150GBps。
大多數小型企業選擇從服務器供應商處采購加速器作為服務器的一部分。這是一種方便的方法,因為大多數主要的服務器供應商都擁有加速服務器產品。較大的公司也會選擇VAR經銷商或系統集成商或直接從加速器供應商處采購。這種方法為他們提供了更大的靈活性,因為增值經銷商和系統集成商將能夠提供更加定制化的解決方案,同時直接從供應商處采購可以提供安裝加速器的更好的靈活性。
在將加速器作為服務器的一部分進行采購時,會有一定的價格溢價。迄今為止,還沒有幾項基準來確定加速器作為既定服務器的一部分能夠提供多少額外的性能,但是根據IDC的研究表明,采購此類系統的企業平均發現,在既定的總體性能增長的情況下,一定的價格溢價是可以接受的(請參閱下表3)。
加速固然非常有效,但其并不總是解決企業數據中心服務器基礎架構瓶頸局限性的最終解決方案。這在很大程度上取決于服務器的核心性能、企業所選擇的加速的類型、互連的類型以及諸如軟件和數據等各種其他因素。因此,企業客戶不僅需要考慮采用哪些加速器和共計擁有多少臺服務器,還要考慮企業已經安裝了哪種服務器,包括每個內核的性能和I/O帶寬。選擇一款平衡系統是非常關鍵的,特別是對于處于嘗試各種模型的人工智能的實驗階段的企業客戶來說,因為每種模型都會以不同的方式為系統帶來壓力。
表3、既定性能增加的可接受價格溢價范圍
資料來源:《認知服務器基礎架構調查》2017年6月,IDC