古希臘著名學者
亞里士多德曾經斷言:
物體從高空下落的快慢,
與物理的重量成正比;
重量越大的物體,
下落速度越快。
1000多年來,人們對亞里士多德的論斷深信不疑。直到1589年(亦有文稿記載是1590年),出生在意大利比薩的物理學家伽利略登上比薩斜塔,將兩個重量不同的球體從相同高度同時扔下,結果兩個球體同時落地。這就是我們在中學物理課本中有學到的自由落地實驗。
比薩大學,1343年由教皇克萊門特六世創建,是意大利乃至歐洲最古老的大學之一。600多年的校史,培養了無數杰出人物。比薩大學是伽利略的母校,在完成著名的比薩斜塔實驗那一年,伽利略年僅26歲,已經是比薩大學的教授。
距伽利略實驗430多年后的今天,比薩大學依然是歐洲的頂尖學府,其物理學、數學、計算機科學、歷史學、醫學等專業排名位居全球前列,當下熱門的人工智能也是比薩大學重點研究方向。
比薩大學希望為學校教師和學生的AI深度學習、機器學習、數據分析領域的研究,提供一套靈活的基礎架構環境,讓AI應用的部署和管理更加靈活。在去年,比薩大學便已選擇了戴爾PowerStore為廣大師生提供便捷快速的數據訪問與應用能力。而這次,比薩大學仍然選擇了戴爾:
通過與戴爾科技的合作,戴爾科技為比薩大學提供的AI計算平臺解決方案,在戴爾PowerEdge R740XD GPU加速服務器和Vmware虛擬化軟件平臺上,通過NVIDIA AI Enterprise軟件創建和部署AI應用。通過GPU虛擬化技術,讓更多的老師和學生可以同時在線使用GPU算力。
比薩大學CTO Maurizio Davini接受采訪時表示:
“
我們的測試顯示通過NVIDIA AI Enterprise最新技術成果,在虛擬機運行的GPU加速應用,可以實現與裸金屬環境近乎相當的加速性能。
”
NVIDIA AI Enterprise(以下簡稱NVAIE)解決方案,是戴爾科技與NVIDIA、Vmware于2021年開始聯合推廣的解決方案,旨在幫助用戶解決構建企業級人工智能平臺的技術痛點。相較于云平臺、大中型互聯網、專業AI公司等早期AI用戶,很多企業用戶接觸AI技術較晚,從頭開始搭建AI平臺繼而開展AI應用開發的難度較大,常常面臨著這樣的煩惱:
●當前主流AI框架、優化庫基本都是開源軟件,學習成本比較高;
●缺乏快速創建、擴容及釋放AI計算及存儲資源的軟件方案及商業支持服務;
●當前AI應用部署多采用裸金屬或開源容器化方案,缺乏對企業數據中心通常使用的資源管理調度機制如虛擬化的集成及優化。
對此,NVAIE包含一套完整的、專門為AI和數據分析應用優化的集成式軟件堆棧與硬件堆棧,用戶可以在高性能、可擴展、經濟高效的基礎設施上運行AI應用程序。戴爾科技提供的通過NVIDIA官方認證的AI基礎設施,與Vmware虛擬化和容器編排平臺緊密集成,簡化AI平臺管理、部署、運營和監控工作。
NVAIE解決方案的系統架構與功能組件
NVAIE自底而上主要包含三層功能組件:
⑴ NVIDIA Certified System 認證系統硬件
NVIDIA認證系統(NVIDIA Certified System),是NVIDIA AI Enterprise軟件部署和運行的硬件基礎設施平臺。認證系統的認證規范,相較于一般的GPU兼容性驗證更加嚴格。GPU服務器需要通過25類真實世界GPU應用負載的驗證測試,包括AI訓練、AI推理、數據分析等負載。測試項目包括兼容性、性能、安全性、可管理性、可擴展性等。
⑵ Vmware vSphere/Redhet/K8S軟件平臺
NVAIE 1.0與1.1版本工作在Vmware vSphere環境下,并提供對Vmware Tanzu的支持。針對Vmware vSphere環境進行了充分優化,在單節點及多個節點上的性能接近于裸機水平。而通過與vCenter的集成,用戶可以通過vCenter,以圖形界面操作非常便捷地開啟和使用GPU MIG特性,而不再需要額外的命令行操作。
NVAIE解決方案,通過與vSphere SR-IOV、ATS地址翻譯服務等機制的深度融合與性能優化,支持在VM虛擬機層面開始GPU Direct RDMA,加速多機多卡GPU分布式訓練性能。而在今年3月, NVIDIA AI Enterprise 2.0也增加了對Redhat和Kubernetes云原生軟件平臺的支持。
⑶ NVIDIA AI Enterprise軟件套件包
在戴爾科技基礎設施硬件與Vmware虛擬化軟件平臺上,用戶可以運行數百種AI與數據分析應用軟件。其中,NVIDIA精選出11款由NVIDIA開發或者優化,在用戶AI模型訓練及推理計算中最常使用的AI軟件,組成了NVAIE軟件套件包,功能涵蓋了AI基礎架構優化到遷移部署面面俱到。
NVIDIA AI Enterprise軟件套件的商業銷售,包含企業版和教育版。用戶購買NVIDIA AI Enterprise軟件套件的商業授權,后續在使用套件中的任何一款或者多款軟件,將會得到NVIDIA的商業軟件支持服務。
來自NVIDIA與戴爾科技的測試數據證明:通過vSphere軟件層面針對AI應用軟件的深度優化,NVAIE解決方案可以在虛擬機層面實現接近于裸金屬環境下部署AI應用的計算性能體驗,并且支持跨主機的多節點橫向擴展。
2021年MLPerf組織的AI Inference v1.1基準測試中,戴爾科技提交的PowerEdge R7525服務器上,使用3張NVIDIA A100 GPU加速卡上運行NVIDIA AI Enterprise的性能數據,在虛擬化平臺取得了各AI模型94.4%到100%的等效裸機性能。
戴爾科技提供非常豐富的、已經通過NVIDIA認證系統官方認證的GPU加速產品,包括PowerEdge服務器家族當前熱銷的GPU服務器,如R750xa、XE8545、R750、R7525、DSS8440等;以及來自于戴爾科技目前唯一通過NVIDIA認證系統認證的GPU超融合平臺VxRail。
戴爾科技可以為選用NVAIE方案的用戶,提供包括NVIDIA官方認證支持的計算設施、存儲設施、網絡設施,以及NVIDIA AI Enterprise軟件及Vmware軟件的銷售及軟件部署服務,整體解決方案和一站式的服務讓企業在后續的實施和運維中避免軟硬件適配帶來的額外困擾,幫助企業輕松應對AI時代下的嚴苛挑戰。