基于開源軟件的集群和Linux操作系統統治著高性能計算(HPC)系統,主要原因正是其成本效益以及靈活性,還有豐富的開源應用可以使用。
IBM Platform HPC在單一產品中提供完整的高性能計算(HPC)管理解決方案,它包含豐富的即取即用功能集,通過減少HPC環境的復雜性和加速解決問題,賦予高性能技術計算用戶強大的能力。
IBM Platform HPC(PHPC)在單一產品中提供了基于Linux集群的一整套技術和高性能計算管理功能,通過自動部署操作系統和軟件組件,系統管理員可以使用Platform HPC將復雜的集群作為單一系統進行管理。Platform HPC提供了配置和維護能力,它還包括集中化的監控,帶有警報和可定制的警報措施。
具體而言,Platform HPC包括以下功能:
<<集群管理(內嵌的xCAT作為配置引擎)
<<工作負載管理(基于IBM Platform LSF Express)
<<工作負載監控和報告
<<系統監控和報告
<<強健的商業MPA Library(基于IBM Platform MPI標準版)
<<應用支持(集成應用腳本/模板)
<<加速器支持,包括GPU和英特爾至強Phi處理器調度、管理和監控
<
<<統一的Web門戶
Platform HPC的應用
通過一個易于使用的Web界面,IBM Platform HPC允許制造、石油、天然氣、生命科學以及高等教育等行業的技術型計算用戶配置、管理和使用他們的HPC集群,這為用戶最大限度減少了設置和管理集群所花費的時間,讓他們把精力集中于應用運行,而不是管理基礎設施上。
IBM Platform HPC具有完整的針對ANSYS Mechanical、ANSYS Fluent、ANSYS CFX、LS-DYNA、MSC Nastran、Schlumberger ECLIPSES、Simulia、Abaqus、NCBI Blast、NWChem、ClustalW以及HMMER的任務提交模板。
通過配置這些基于環境的應用設置模板,可以從一開始使用集群就不需要編寫腳本。那些配置自主或者開源應用的集群用戶可以使用Platform HPC腳本指導方針。這些界面可以最大程度上減少任務提交錯誤,并且是自我記錄的,讓用戶能夠創建自己的任務提交模板。
Platform Application Center(PAC)集成:Platform HPC中并不包含Platform LSF插件,用戶必須單獨下載并安裝這個插件。Platform HPC包括PAC的一些功能,如任務提交、任務管理以及應用模板。
如果一個用戶購買了PAC標準版,同時會收到授權,可以通過這個授權,在現有的Platform HPC上啟用其他功能,如遠程2D和3D可視化。不過,PAC雙體中包含PAC標準版的其他功能,因此,如果用戶需要這些功能,比如Role Based Access Control,必須單獨安裝PAC。
組件模型
Platform HPC軟件組件支持各種運行于集群上的計算密集型應用,為了支持這種應用,圖2-1中顯示的Platform HPC軟件組件,并可以提供多項服務。
圖2-1 Platform HPC軟件組件圖表
在開始任何軟件應用之前,所有節點都要安裝操作系統和應用軟件,這個功能是通過配置引擎提供的。在這里,用戶創建或者使用一個預先設定的配置模板,這個模板描述了計算節點軟件需要的特性。這個配置引擎通過一個選定的網絡接收啟動請求,給系統安裝相應的操作系統和應用軟件,安裝完成之后,就可以運行系統和目標應用了。
盡管計算圖像可以運行應用軟件,但是對這些圖像的訪問通常是被任務調度器(Platform LFS)控制的,它作為一個工作負載管理器運行。這個調度器的功能是確保在計算節點上的計算資源不被序列化的訪問過度消耗。
這個調度器的屬性通常是在安裝過程中定義的,可以配置這個調度器,將不同工作負載分配提交給任務代理之一(Platform LSF代理),這個任務代理在接收到任務調度器的請求時開始特定的工作負載,系統中有多個任務代理,每個操作系統圖像上有一個。
這個監控和資源代理向配置代理和任務調度器返回每個操作系統圖像的系統狀態報告,并提供一個機制,在發生故障的時候發出警報,確保任務只在可用且有資源的操作系統圖像上進行調度。
網絡門戶則為管理員提供了一個易于使用的機制,來控制和監控整個集群,同時對于用戶來說,它提供了對系統易于使用的訪問,以進行任務提交、管理和報告。