眾所周知,深度學習需要大量而又簡單的重復、迭代運算。并行的計算量越多(計算芯片核心),計算效率越高。與CPU擅長邏輯控制和通用類型數據運算不同,GPU最擅長的便是大規模并行計算,性能提升幾十倍以上。因此,人工智能場景下對GPU的需求愈發強烈。雖然通過上期介紹的AI Engine拖拉拽方式,能將AI建模的門檻有所降低,但對于專業的數據科學家,依然為底層GPU資源池的統一管理與調度、深度學習框架管理,一籌莫展、無從下手。
落地AI,依舊一籌莫展
針對圖像處理、語音識別、自然語言處理等深度學習場景下,需要搭建大規模的GPU集群,針對不同的算法模型、不同的深度學習框架,用戶如何統一調度與管理GPU集群的計算資源、存儲資源,分配給不同的租戶使用,是首當其沖需要解決的問題。
對于TensorFlow、Caffe、MxNet等深度學習框架,如何快速部署,提供開發鏡像環境,滿足不同用戶在不同場景下的框架需求、算法需求與開發需求,也是數據科學家難以逾越的一道門檻。
面對多部門、多用戶同時進行模型訓練、在線推理,采用什么策略對各個任務進行調度,是搶占模式還是先進先出,以及每個訓練任務利用哪個GPU加速卡,每個卡的運行狀態如何,都需要統一的監控與管理。
對于AI,我們還能做的更多
針對以上問題,新華三人工智能引擎,還提供一體化的軟硬件部署和管理服務,減少開發者系統安裝維護工作量;優化分布式訓練部署模型,實現多機多卡GPU資源與訓練作業靈活調度;提供豐富的可自定義軟件和鏡像庫,充分滿足客戶對AI計算環境的需求。
統一的集群管理:負責整個系統計算資源的集中管理、統一分配與作業調度,包括GPU資源池的集中管理與分配、多租戶方式隔離計算資源、以作業方式動態分配計算資源以及計算資源回收等。
統一的監控運維:實時監控管理集群資源使用情況和集群狀態,包括作業狀態、GPU使用率、集群健康度等,并分析每一類的資源占用情況,提供觸發預警機制。
統一的開發環境:提供一站式的交互開發操作界面,幫助用戶完成模型腳本在線編輯、模型訓練、模型驗證以及模型推理等核心功能,并結合硬件資源可視化、作業調度器,最大化提高系統硬件資源的利用率。
AI賦能科研創新
GPU硬件資源的統一管理、計算任務的統一調度,與授之以漁式的算法建模與模型發布,類似新華三人工智能引擎的左膀右臂,可為用戶提供從底層硬件資源、開發框架資源到數據建模服務,一體機化的AI平臺解決方案。可廣泛應用于高校、研究所、企業等,為意圖在AI領域進行探索性科研創新,搭建人工智能實驗室的客戶,提供開創性的一體化人工智能平臺,讓AI起飛之前先落地。
2017年7月國務院刊發了《新一代人工智能發展規劃》,明確提出要形成“人工智能+X”復合專業人才培養新模式,要加強產學研合作,鼓勵高校、科研院所與企業等機構合作開展人工智能學科建設。新華三對大數據人才培養有完善的解決方案,那我們又如何利用成熟的大數據學科建設經驗,結合人工智能引擎,開展“人工智能+X”教學實訓了