IBM Platform Computing提供了一系列工作負載管理能力以優化運行各種采用高性能計算集群的應用,并通過多樣化工作負載、業務優先級以及應用資源需求確保較高的資源使用率。工作負載管理有效地利用計算資源來盡可能快速地完成工作負載。為了實現有效的工作負載分配,這里需要一個智能的調度策略。智能的調度策略是基于對共享計算資源、應用優先級以及用戶策略的了解。提供最佳服務等級協議管理,并通過提供更大的靈活性、可見性以及對作業調度的控制,來幫助降低運營成本和基礎設施成本,這是投資回報最大化所需要的。
IBM平臺負載共享設施
IBM Platform LSF(負載共享設施)是一個功能強大的工作負載管理平臺,面向要求苛刻的、分布式和關鍵任務的高性能計算環境。IBM Platform LSF管理批量和高度并行的工作負載。它提供了靈活的以策略為驅動的調度功能,這確保了共享計算資源自動分配給用戶、群組以及作業,與你的服務等級協議保持一致,從而改善資源使用情況和用戶生產效率。
高級調度功能使得Platform LSF適用于以高利用率運行,從而降低運營成本。很多功能結合到一起縮短用戶的等待時間,提供更好的服務等級,這樣知識型工作者就可以獲得更高的工作效率,從而產生更快速、更高質量的工作結果。它強大的管理功能使得一小群管理員可以更輕松地進行管理,提高效率并釋放有價值的員工投入到其他項目中。例如,你可以委派控制一個特定的用戶社區到一個特定的項目或者給某個部門經理。你還可以重新配置集群給一個群組,而不會導致其他所有群組的停機時間,使用一種受益于通過GPU的新型應用。所有這些功能都將轉化為靈活性。
Platform LSF功能的可擴展性可以滿足您不斷變化的需求,Platform LSF是可以在多個維度上進行擴展的。它可以擴展到數十萬的節點和數百萬的作業。它還可以在其他維度進行擴展:例如,在它所支持的資源廣度方面。無論你是管理Windows、Linux、GPU工作負載還是浮動應用許可,Platform LSF都可以對跨多個數據中心和地域的大量用戶和資源進行靈活控制。它還可以擴展支持不同類型的工作負載,或者數百萬以毫秒計算的短時作業。Platform LSF具有調度功能以滿足這些多樣化的需求,處理大規模工作負載。Platform LSF在解決各種調度問題的能力上是獨一無二的,它能夠在一個集群上同時激活多重策略。
Platform LSF的智能調度策略包括以下特性:
公平調度拓撲和核心感知調度回填和搶占資源預留可調整大小的作業連續和并行的控制提前預約作業饑餓許可調度基于SLA的調度絕對優先級調度檢查點和恢復作業陣列GPU感知的調度,NVDIA GPU和英特爾至強Phi加速器均支持與IBM platform MPI以及IBM并行環境的緊密集成可自定義的調度器
以下版本提供了Platform LSF,以確保用戶擁有合適的功能集以滿足他們的需求:
快捷版:適合于單集群環境,針對低吞吐量、并行作業以及簡單用戶群組結構進行了優化標準版:適合于多集群或者網格環境,針對高吞吐量、連續作業以及復雜用戶群組結構進行了優化高級版:支持極高的可擴展性,吞吐量達到100k+的核心以及并發作業
Platform LSF的性能取決于許多因素,包括集群中節點的數量、并行運行作業的數量、等待作業的數量、用戶作業查詢的數量以及查詢的頻率。隨著這些任務的增加,調度周期和用戶響應時間也會隨之增加。對于高吞吐量工作負載來說,整體系統性能取決于處理能力、I/O容量以及調度節點的內存。以下表格提供了基于測試集群配置的衡量指南。對于大型集群來說,建議用戶尋求IBM的集群調優服務和幫助。
Platform LSF可擴展性和吞吐量
Platform LSF的異構性概念是很重要的,因為很少有組織機構只在唯一的硬件平臺上運行一個操作系統。Platform LSF覆蓋從Windows到UNIX以及Linux,再到Cray、NEC和IBM的超級計算機,IBM超級計算機采用全球最先進的架構,為客戶提供完全自由的選擇,利用一款全面支持的軟件產品,針對最佳作業運行最佳平臺。
以下操作環境和架構均支持Platform LSF:
IBM Power 6和POWER7上的IBM AIX 6.x和7.xPA-RISC上的HP UX B.11.31IA64上的HP UX B.11.31Sparc上的Solaris 10和11x86-64上的Solaris 10和11x86-64 Kernel 2.6和3.x上的LinuxIBM Power 6和IBM POWER7 Kernel 2.6以及3.x上的LinuxWindows 2003/2008/2012/XP/7/8 32位和64位Apple Mac OS 10.xLinux Kernel 2.6上的Cray XT3、XT4、XT5、XE6以及XC-30Linux Kernel 2.5上的glibc 2.3, SGI性能套件glibc 2.3和ARMv7 Kernel 3.6 glibc 2.15 (僅限平臺LSF從屬主機)
關于在不同平臺LSF版本上支持的平臺LSF系統詳細信息,請參照以下網址:
http://www-03.ibm.com/systems/technicalcomputing/platformcomputing/products/lsf/index.html
IBM Platform LSF提供了可選的附加組件,可以安裝以擴展工作負載管理功能集。以下附加組件設計旨在協同工作解決你的高性能計算需求:
IBM Platform應用中心(IBM Platform Application Center,PAC):門戶管理和應用支持,提供了一個豐富的環境,用于構建易于使用的、以應用為中心的Web界面,簡化作業提交、管理和遠程3D可視化。IBM Platform流程管理(IBM Platform Process Manager,PPM):一個強大的可視化界面,設計了復雜的工程計算流程和多步驟工作流程,并捕獲可重復、可被其他用戶使用的最佳實踐。IBM Platform RTM:一個靈活的實時儀表板,用于監測全局工作負載和資源,包括資源使用情況包括。通過更好的集群可見性和集群警報工具,管理員可以在問題導致故障發生之前找出這個問題,幫助避免不必要的服務中斷。IBM Platform分析:一款分析工具,用于可視化和分析大量工作負載數據,以改善決策和更準確地進行容量規劃,優化資產使用、查找并移除瓶頸。IBM評測許可調度:一個許可管理工具,能夠實現策略為驅動的分配以及對商用軟件許可的追蹤。IBM Platform片段調度:一個高吞吐量和低延遲的調度解決方案,適用于運行短作業,不管是一個任務列表還是帶有參數執行的作業數組。IBM Platform動態集群:一個創新的云管理解決方案,將靜態的、使用率較高低的集群轉變成動態的、共享的云資源。
Platform LSF的用例
Platform LSF家族產品專注于以下技術計算市場:
電子“電子設計自動化(EDA),電子電路設計和軟件開發/QA。制造(汽車和航空航天以及國防):計算密集型模擬、碰撞和乘員安全、計算流體動力學、NVH、空氣動力學、耐久性、機電一體化設計、工程流程以及產品數據管理、遠程可視化及材料工程。生命科學:人類基因組測序、量子色動力學模擬和藥物治療設計。能源/石油與天然氣:3D可視化、油藏數值模擬、地震數據處理、下游化工和機械工程應用。高等教育和研究:電磁仿真、有限元分析、微觀光學、模擬、量子色動力學模擬、可視化和圖像分析、氣候建模和天氣預報。媒體和數字內容創建:動畫、模擬和渲染。
IBM Platform LSF在很多行業得到了成功部署,用于管理批量和高度并行的工作負載。Platform LSF的用戶使用案例受益于關鍵行業領先獨立軟件廠商的應用支持。在Platform應用中心內的IBM Platform LSF具有完整的應用模版,覆蓋ANSYS Mechanical、ANSYS Fluent、ANSYS CFX、ClustalW、CMGL STARS、CMGL IMEX、CMGL GEM、HMMER、LS-DYNA、MATLAB、MSC Nastran、NCBI Blast、NWChem、Schlumberger ECLIPSE、Simulia Abaqus、STAR-CCM,以及用于內部或者開源應用的通用模板。通過訪問應用的標準化,Platform應用中心可以更容易地執行站點策略并解決基于角色的訪問控制(RBAC)的安全擔憂。
通過Platform LSF,計算資源通過動態和透明的負載共享提供給用戶。通過其透明遠程作業運行,Platform LSF提供了強大的遠程主機以提高應用性能,這使得用戶能夠在系統中的任何地方訪問資源。
Platform LSF架構
Platform LSF是一個位于異構企業資源之上的軟件服務層。下表顯示了這種分層的服務模式,它接受并且調用工作負載為批量或者非批量處理應用、管理資源和監控所有活動。
Platform LSF分層的服務模式
上圖中顯示了工作負載資源管理層的三個核心組件,分別是LSF Base、LSF Batch和LSF Libraries。這三個組件一起幫助創建一個共享的、可擴展的、容錯的基礎設施,交付更快速更可靠的工作負載性能。
LSF Base為分布式系統提供了基礎的負載均衡服務,例如資源使用情況信息、主機選擇、作業安置決策、透明遠程運行作業以及遠程文件選項。這些服務是通過以下組件提供的:
負載信息管理器(LIM)。每臺主機上的LIM監控主機的負載,并向運行在主機節點上的LIM報告負載性能。主LIM手機來自運行在集群中的所有從屬主機的信息,并向應用提供相同的信息。進程信息管理器(PIM)。這是LIM發起的,運行在集群中的每個節點上。它收集運行在主機上的作業流程信息,例如作業消耗的CPU和內存,并將這些信息報告給sbatchd。遠程執行服務器(RES)。每臺服務器主機上的RES接收遠程運行請求,提供高速、透明和安全的遠程任務運行。
有多個工具例如lstools、lstcsh和lsmake可用于管理工作負載。
LSFBatch將Platform LSF基礎服務擴展至能夠為批量作業處理系統提供負載均衡和基于策略的資源分配控制。為了提供這種功能,LSF Batch使用以下一些平臺LSF的基礎服務:
來自LIM的資源和負載信息,以便做負載均衡來自LIM的集群配置信息由LIM提供的主LIM選擇服務RES用于交互式批量作業運行由RES提供的遠程文件操作服務用于文件傳輸
Platform LSF Batch的核心組件是基于Master Batch Scheduler守護進程(mbschd)的調度框架,與多個插件進行結合。所有調度策略都是在插件中實現的。針對每個調度周期,觸發調度,然后控制負載通過每個調度策略插件,并按照調度策略選擇和派發到執行節點。
在不同的調度階段,這個插件都可以攔截作業負載并影響最終決策。這意味著為了做出調度決策,Platform LSF采用多個調度方法,可以并發運行以及用于任何組合中,包括用戶定義的定制調度方法。這種獨特的模塊化架構讓調度器框架可擴展增加新策略例如新的親和插件。
LSF Batch服務是有兩個守護進程提供的。Master Batch守護進程(mbatchd)運行在主主機上,負責系統中整體作業狀態。它接收作業提交和信息查詢請求。守護進程管理隊列中的作業,迅速將作業調遣至由mbatchd決定的主機。Slave Batch守護進程(sbatchd)運行在每個從屬主機上。守護進程接收請求運行來自mbatchd的作業,并管理作業的本地運行。它負責執行本地策略并維持主機上的作業狀態。守護進程創建一個子sbatchd以應對每個作業運行。這個子sbatchd將作業發送到RES,后者創建作業運行的環境。
LSF庫為分布式計算應用開發者提供API,以訪問作業調度和資源管理功能,提供以下一些平臺LSF庫:
LSLIB:這是一個LSF庫,為跨異構計算機網絡的應用提供Platform LSF基礎服務。Platform LSF基礎API是Platform LSF基礎系統的直接用戶界面,為Platform LSF服務器的服務提供輕松的訪問。一臺Platform LSF主機服務器運行負載共享作業。一個LIM和RES運行在每個Platform LSF服務器主機上。他們與主機操作系統連接,為用戶提供一個統一的、獨立于主機的環境。LSBLIB:LSF批量處理庫為應用編程者提供了對作業隊列處理服務的訪問,這些服務是由平臺LSF批量服務器提供的。所有平臺LSF批量用戶界面工具都是構建在LSBLIB之上的。通過LSBLIB提供的服務包括平臺批量系統信息服務、作業操縱服務、日志文件處理服務以及Platform LSF批量管理服務。