AI加速器資源池化構(gòu)想與實現(xiàn)

責任編輯：cres 作者：王鯤博士 |來源：企業(yè)網(wǎng)D1Net 2020-05-13 12:58:37 原創(chuàng)文章企業(yè)網(wǎng)D1Net

隨著AI技術(shù)的快速發(fā)展，越來越多的企業(yè)開始將AI技術(shù)應(yīng)用到自身業(yè)務(wù)之中。因此，對AI算力的需求在近幾年迅猛增長。2020年5月11日IDC發(fā)布《人工智能基礎(chǔ)架構(gòu)市場(2019下半年)跟蹤》報告，2019年中國人工智能基礎(chǔ)架構(gòu)市場規(guī)模達到20.9億美元，同比增長58.7%。其中GPU服務(wù)器占據(jù)96.1%的市場份額。IDC預(yù)測，到2024年中國GPU服務(wù)器市場規(guī)模將達到64億美元。

目前，云端AI算力主要由三類AI加速器來提供：GPU，F(xiàn)PGA和AI ASIC芯片。這些加速器的優(yōu)點是性能非常高，缺點是價格也非常高。今天由于缺乏高效經(jīng)濟的AI加速器資源池化和虛擬化解決方案，絕大部分企業(yè)因無法構(gòu)建高效的加速器資源池，而不得不獨占式地使用這些昂貴的加速器資源，導致資源利用率低，成本高。據(jù)AWS在re:Invent 2018上提到的數(shù)據(jù)，AWS上GPU利用率只有10%～30%。

傳統(tǒng)的GPU虛擬化技術(shù)只能對本地物理機上的GPU進行虛擬切割,分配給不同的虛擬機使用,從而實現(xiàn)計算資源的靈活分配和利用。而隨著各個數(shù)據(jù)中心和企業(yè)的GPU服務(wù)器數(shù)量不斷增加，數(shù)據(jù)中心的GPU卡已經(jīng)到達幾千片的數(shù)量級，傳統(tǒng)的單打獨斗式的GPU服務(wù)器的使用模式和管理模式都極大制約了各單位的AI應(yīng)用的開發(fā)和部署的速度以及發(fā)展規(guī)模。市場急需一種AI計算平臺,不僅可以支持本地GPU虛擬化,更重要的是還能打破資源調(diào)度的物理邊界, 讓用戶的AI應(yīng)用無需修改代碼即可透明地使用其他物理機上的遠程GPU資源,從而實現(xiàn)數(shù)據(jù)中心級的GPU資源池化管理和彈性調(diào)度,極大地提升了整個GPU資源池的利用率和管理靈活度。

資源池化和虛擬化技術(shù)的目標之一,就是提供與工作人員在物理機上使用時一樣的體驗。目前趨動科技的Orion 獵戶座計算平臺可以幫助每個用戶改進AI加速器資源分配,支持用戶通過多個虛擬機或者容器來共享本地以及遠程GPU資源,并且更靈活地部署AI應(yīng)用,實現(xiàn)更優(yōu)的生產(chǎn)力、安全性和IT可管理性。

用戶通過Orion 獵戶座計算平臺分配的GPU資源,無論是本地GPU資源,還是遠程GPU資源,均是軟件定義、按需分配。這些資源不同于通過硬件虛擬化技術(shù)得到的資源,它們的分配和釋放都能在瞬間完成。而且,所有上述的資源分配和釋放都不需要虛擬機重啟。

值得一提的是,Orion 獵戶座計算平臺由全球虛擬化計算領(lǐng)域的技術(shù)領(lǐng)先者趨動科技(VirtAITech.com)研發(fā),其核心團隊均來自Dell EMC中國研究院,IBM中國研究院等頂級研究機構(gòu)。憑借創(chuàng)始團隊在虛擬化領(lǐng)域十幾年的技術(shù)積累以及場景挖掘能力,趨動科技成功打造了這套較為完整的AI加速器彈性資源池化解決方案。

人工智能是第四次工業(yè)革命的引領(lǐng)技術(shù),基于AI加速器的深度學習是人工智能發(fā)展的關(guān)鍵所在,無論之于國家還是企業(yè),都應(yīng)該通過技術(shù)創(chuàng)新,在這一次全世界范圍內(nèi)的浪潮中開啟屬于自己的一片天地。趨動科技通過打造Orion AI計算平臺,不僅能夠幫助企業(yè)和開發(fā)者更好地實現(xiàn)AI加速器資源的管理和調(diào)度,同時也開創(chuàng)了“AI加速器資源池化+異構(gòu)加速器管理和調(diào)度”的新賽道。

關(guān)鍵字：人工智能 AI