近年來,國家對于高新技術(shù)自主研發(fā)的重視已經(jīng)上升到了國家戰(zhàn)略層面,高校作為國家未來人才儲備,科研成果最多的單位之一,國家對其投入也在逐年加大。教學(xué)設(shè)施的優(yōu)化與科研配套設(shè)備對于高校教研工作者來說尤為重要。在眾多科研設(shè)備中,高性能計算機和計算中心已經(jīng)越來越多的作為“基建”設(shè)施被各大高校爭先引入。
齊魯工業(yè)大學(xué)作為山東省重點建設(shè)的應(yīng)用研究型大學(xué)、山東省綜合性自然科學(xué)研究機構(gòu)以及山東省屬高校高水平大學(xué),緊隨國家科技興國的發(fā)展戰(zhàn)略,提前布局高性能計算基礎(chǔ)設(shè)施,為教學(xué)、科研、行業(yè)應(yīng)用等多種應(yīng)用場景提供完善的融合服務(wù)平臺。尤其是在人工智能方向,校方迫切需要搭建自己的高性能數(shù)據(jù)分析集群,幫助在校老師及學(xué)生完成在人工智能領(lǐng)域的開發(fā)、模型訓(xùn)練教學(xué)以及科研任務(wù)。
人工智能領(lǐng)域的探索需要強大的算力支撐,高性能數(shù)據(jù)分析集群是不可或缺的基礎(chǔ)設(shè)施。它不僅需要良好的硬件支撐和友好的應(yīng)用軟件,更需要能把性能發(fā)揮到最大化的中臺系統(tǒng)——“集群資源管理和調(diào)度軟件”。所謂集群資源管理和調(diào)度軟件就是協(xié)調(diào)底層硬件資源與應(yīng)用層軟件的中樞系統(tǒng),好比一個繁忙十字路口的紅綠燈,它可緩解擁堵的道路交通,并最大化提升道路運輸能力,這就是高性能計算中資源管理和調(diào)度軟件的作用。沒有它的管理,會造成用戶的任務(wù)大量沖突, IT資源大量浪費,導(dǎo)致科研項目進度大大降低。常規(guī)的開源軟件如基于容器技術(shù)的Kubernetes使用和維護門檻較高,需要使用者熟悉容器的制作和使用,運行和維護也缺乏代碼開發(fā)者的直接支持。
天云軟件與合作伙伴一起積極聽取校方的需求與意見,從校方的使用場景出發(fā),根據(jù)多年的服務(wù)經(jīng)驗和高性能計算、高性能數(shù)據(jù)分析管理調(diào)度軟件的技術(shù)積累,基于天云自主的高性能計算管理和調(diào)度系統(tǒng)SkyForm AIP設(shè)計出了一套適合于高校的高性能數(shù)據(jù)分析平臺。重點提升對GPU資源的調(diào)度、使用和監(jiān)控,實現(xiàn)完全云模式的操作流程,讓老師和學(xué)生們可以像在本地一樣遠程可視化使用應(yīng)用。調(diào)度軟件不僅有效為模型訓(xùn)練任務(wù)分配GPU,還可監(jiān)控GPU實際的使用情況,對已分配GPU后不使用以及隨意使用未經(jīng)調(diào)度分配的GPU的任務(wù),將會根據(jù)規(guī)則自動處理,這樣極大的提高了GPU和集群其他資源的利用率,讓老師和同學(xué)們把精力集中在人工智能的科研和教學(xué)上,而不需要花費大量精力去學(xué)習(xí)和處理容器、操作系統(tǒng)命令等復(fù)雜的IT問題。
當(dāng)然項目也并非進行的一帆風(fēng)順。在最初的高性能數(shù)據(jù)分析集群部署完成后,同學(xué)們爭先恐后的登錄平臺,想在平臺上盡快建立自己的研究項目,但這也引發(fā)了一個問題——稀缺的GPU資源長時間被某些用戶長時間占用,導(dǎo)致其他人無法使用。天云軟件的技術(shù)團隊迅速作出反應(yīng),對軟件產(chǎn)品進行了改進。首先對用戶任務(wù)類型分類,通過限制登錄時間和資源分配,有效釋放平臺緊俏資源;其次為防止資源分配沖突,對系統(tǒng)監(jiān)控功能進行了重點升級,使得調(diào)度系統(tǒng)在監(jiān)控下對資源分配得當(dāng),效率倍增;最后為了進一步提高整體系統(tǒng)安全性,天云軟件技術(shù)團隊對圖形應(yīng)用內(nèi)網(wǎng)端口動態(tài)端口做了統(tǒng)一映射到一個固定端口,用戶通過網(wǎng)關(guān)訪問系統(tǒng),直接打開瀏覽器輸入登錄,安全便捷。齊魯工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院姜文峰老師說:“平臺最開始確實有些使用問題,經(jīng)過一段時間的磨合后,天云軟件逐步完善切實可行的升級方案,并為我們定制化開發(fā)了多項配套實用功能,他們不僅能夠快速響應(yīng),還專門建立了技術(shù)運維社群,7*24全天候在線處理突發(fā)問題,這樣的服務(wù)令我們非常滿意,目前碰到的問題都已妥善的解決,這個平臺對于我們學(xué)校的科研教學(xué)工作起到了很大的幫助。”
天云軟件與合作伙伴通力合作克服了項目實施中的諸多難點,為齊魯工業(yè)大學(xué)搭建了一個模塊化、便捷、可靠且可擴展的高新能數(shù)據(jù)分析平臺。經(jīng)過近兩年的使用和與運維團隊的緊密配合,系統(tǒng)運行穩(wěn)定,資源效率實使用大幅提高,為校方教學(xué)、科研項目提供了良好的技術(shù)支撐,得到了老師同學(xué)們的一致好評。