在全球氣候變暖的大背景下,極端天氣氣候事件的頻發(fā),將給人民群眾的生命和財(cái)產(chǎn)安全帶來威脅。為了應(yīng)對氣候變化帶來的諸多挑戰(zhàn),各國氣象部門紛紛加強(qiáng)了綜合探測系統(tǒng)的建設(shè)。作為綜合探測系統(tǒng)的一支重要力量,我國氣象衛(wèi)星風(fēng)云一號、二號、三號系列,猶如太空的“千里眼”,24小時(shí)監(jiān)測著地球上的“風(fēng)云變化”。
系統(tǒng)資源調(diào)動自動化是關(guān)鍵
從衛(wèi)星上接收各種氣象遙感數(shù)據(jù)到輸出各種大氣、海洋、陸地圖像和定量應(yīng)用產(chǎn)品,是一個非常復(fù)雜的過程,需要多臺服務(wù)器協(xié)同工作。要讓多臺服務(wù)器自動、有條有理、像流水線一樣井然有序地處理和運(yùn)行,尤其是在多衛(wèi)星條件下,作業(yè)流程或作業(yè)序列的啟動和運(yùn)行顯得更加復(fù)雜多變,單靠人工干預(yù),基本上無法完成所需要的作業(yè)調(diào)度任務(wù),必須依靠自動化的負(fù)載調(diào)度系統(tǒng),自動分配計(jì)算資源,實(shí)現(xiàn)資源調(diào)度的自動化。
根據(jù)風(fēng)云氣象衛(wèi)星數(shù)據(jù)處理的特點(diǎn),國家衛(wèi)星氣象中心認(rèn)為負(fù)載調(diào)度子系統(tǒng)應(yīng)該具備以下特點(diǎn):
實(shí)現(xiàn)衛(wèi)星數(shù)據(jù)處理總體流程調(diào)度、控制、管理。由于衛(wèi)星數(shù)據(jù)處理是以實(shí)時(shí)運(yùn)行的作業(yè)為序列,負(fù)載調(diào)度子系統(tǒng)首先需要跳出單個作業(yè)的處理和控制,確保衛(wèi)星數(shù)據(jù)處理流程具有正確的調(diào)度序列和運(yùn)行序列,同時(shí)也要確保流程運(yùn)行的可控性、可見性和可管理性。
實(shí)現(xiàn)單個作業(yè)在多處理器、多機(jī)環(huán)境的有效和有序調(diào)度。衛(wèi)星數(shù)據(jù)處理具有數(shù)據(jù)量大、運(yùn)算量大等高性能計(jì)算的顯著特點(diǎn),需要相當(dāng)高的計(jì)算能力。負(fù)載調(diào)度子系統(tǒng)必須能根據(jù)當(dāng)前計(jì)算機(jī)系統(tǒng)的運(yùn)行情況以及需要運(yùn)行的作業(yè)的情況,根據(jù)事先定義好的調(diào)度策略,迅速高效地調(diào)度相應(yīng)作業(yè)的運(yùn)行。
通過對現(xiàn)有計(jì)算機(jī)系統(tǒng)使用效能和可擴(kuò)展性分析,為業(yè)務(wù)系統(tǒng)的擴(kuò)充以及現(xiàn)有系統(tǒng)的運(yùn)行狀況的改進(jìn)提供參考依據(jù)。
Platform解決方案來助力
為實(shí)現(xiàn)對風(fēng)云氣象衛(wèi)星數(shù)據(jù)處理的調(diào)度、監(jiān)控、運(yùn)行和管理,國家衛(wèi)星氣象中心與業(yè)界公認(rèn)的分布式資源管理領(lǐng)域的領(lǐng)袖公司Platform合作,構(gòu)建基于Platform公司作業(yè)調(diào)度解決方案的負(fù)載調(diào)度子系統(tǒng),并將其作為了衛(wèi)星氣象中心運(yùn)作的基礎(chǔ)支撐工具。國家衛(wèi)星氣象中心認(rèn)為,Platform 公司是集群系統(tǒng)管理軟件領(lǐng)域的領(lǐng)導(dǎo)者,其LSF系列負(fù)載調(diào)度軟件在國內(nèi)外具有眾多多的用戶案例,在國防、教育、航空、航天、氣象、電子等領(lǐng)域得到了廣泛的應(yīng)用。的用戶案的用戶案例,在國防、教育、航空、航天、氣象、電子等領(lǐng)域得到了廣泛的應(yīng)用。
Platform作業(yè)調(diào)度解決方案包括Platform Process Manager、Platform LSF 兩個模塊。
Platform Process Manager是一套專業(yè)的工作流程管理系統(tǒng),提供可視化的工作流程創(chuàng)建、編輯、運(yùn)行和監(jiān)控,極大地簡化了大型復(fù)雜工作流程的定義、運(yùn)行和管理問題。Platform Process Manager能提供衛(wèi)星數(shù)據(jù)處理流程的定義、執(zhí)行、實(shí)時(shí)監(jiān)視和控制。用戶通過Process Manager的客戶端工具或用戶定制的工具,創(chuàng)建、觸發(fā)和管理衛(wèi)星數(shù)據(jù)的處理流程。Process Manager后端的流程處理服務(wù)器響應(yīng)來自客戶端的請求,根據(jù)流程的觸發(fā)條件啟動流程,根據(jù)用戶的指令控制流程運(yùn)行,同時(shí)維護(hù)流程中所有作業(yè)的相互依賴關(guān)系。當(dāng)流程中作業(yè)的運(yùn)行條件滿足時(shí),Process Manager的服務(wù)將實(shí)際作業(yè)提交到LSF 管理的機(jī)群中。
Platform LSF 是一套專門針對氣象、工程等高性能計(jì)算領(lǐng)域推出的機(jī)群管理系統(tǒng),支持異構(gòu)的、分布式Uinx/Linux,Windows計(jì)算環(huán)境,為用戶提供可靠的機(jī)群管理、負(fù)載共享、復(fù)雜的作業(yè)管理及調(diào)度功能和大規(guī)模并行計(jì)算的能力。LSF 既可單獨(dú)使用,也可以用作Platform Process Manager的資源管理和調(diào)度層,根據(jù)Process Manager的指令運(yùn)行用戶流程中的作業(yè)。利用Platform LSF 可以實(shí)現(xiàn)單個作業(yè)在多處理器、多機(jī)環(huán)境的有效和有序調(diào)度。此外,Platform LSF 還提供了可靠的機(jī)群管理、負(fù)載共享、復(fù)雜的作業(yè)管理及調(diào)度功能。
衛(wèi)星數(shù)據(jù)處理自動化成現(xiàn)實(shí)
國家衛(wèi)星氣象中心利用Platform Process Manager實(shí)現(xiàn)了多衛(wèi)星數(shù)據(jù)處理的自動化,以及復(fù)雜流程和子流程的實(shí)時(shí)控制和管理,同時(shí)還利用Platform LSF實(shí)現(xiàn)了計(jì)算資源的共享和負(fù)載平衡,確保了計(jì)算資源的高可靠和高可用,提升了作業(yè)調(diào)度的效率和計(jì)算資源利用的效率。
實(shí)現(xiàn)基于故障的容錯與恢復(fù)。Platform LSF 支持外部資源的定義,從而可與關(guān)鍵業(yè)務(wù)的高可用系統(tǒng)無縫集成,支持關(guān)鍵業(yè)務(wù)的高可用。Platform LSF 及 Platform Process Manager支持主服務(wù)器的容錯功能,在主服務(wù)器故障時(shí),可自動切換到備份服務(wù)器,并繼續(xù)調(diào)度作業(yè)的自動運(yùn)行。在此其間,業(yè)務(wù)系統(tǒng)的運(yùn)行不受影響。Platform LSF 及Platform Process Manager支持衛(wèi)星處理流程的故障自動處理與恢復(fù)。在流程中的某個作業(yè)運(yùn)行失敗后,可以手動或自動地重新運(yùn)行該作業(yè),并讓該流程繼續(xù)運(yùn)行。當(dāng)某個計(jì)算節(jié)點(diǎn)故障或宕機(jī)時(shí),其上運(yùn)行的作業(yè)能自動恢復(fù)在其它節(jié)點(diǎn)上運(yùn)行,實(shí)現(xiàn)多機(jī)切換后流程接續(xù)、自動恢復(fù)等功能。
實(shí)現(xiàn) “搶占式“的調(diào)度策略。Platform 支持“搶占式” 調(diào)度策略。在資源緊張時(shí),高優(yōu)先級作業(yè)可以搶占正在運(yùn)行的低優(yōu)先級作業(yè)使用的資源并啟動運(yùn)行。低優(yōu)先級作業(yè)將被掛起,直到有可用的資源時(shí)再繼續(xù)運(yùn)行。Platform LSF支持可定制的“搶占” 策略,管理人員可以根據(jù)任務(wù)的優(yōu)先級以及系統(tǒng)的運(yùn)行情況,定制相應(yīng)的調(diào)度策略,確保重要的作業(yè)優(yōu)先執(zhí)行,同時(shí)又不犧牲已經(jīng)運(yùn)行作業(yè)的當(dāng)前結(jié)果。Platform LSF根據(jù)系統(tǒng)負(fù)載情況和作業(yè)屬性動態(tài)地調(diào)度資源,保證高時(shí)效和高精度作業(yè)的按時(shí)完成,并保證系統(tǒng)資源的充分使用。
實(shí)現(xiàn)基于流程的自動調(diào)度和處理。衛(wèi)星數(shù)據(jù)處理不僅數(shù)據(jù)量大、處理流程復(fù)雜,需要根據(jù)時(shí)間、事件的不同觸發(fā)不同的流程完成不同的任務(wù);同時(shí)還具有時(shí)效性,每一批數(shù)據(jù)都必須在規(guī)定時(shí)間內(nèi)完成,因此從某種意義上說,它還是一個實(shí)時(shí)系統(tǒng)。Platform Process Manager提供了可視化的工作流程創(chuàng)建、編輯、運(yùn)行和監(jiān)控,極大地簡化大型復(fù)雜工作流程的定義、運(yùn)行和管理問題。同時(shí)Platform Process Manager還可以根據(jù)時(shí)間、事件以及作業(yè)的不同狀態(tài)對作業(yè)流程或子流程進(jìn)行觸發(fā),從而可以根據(jù)衛(wèi)星數(shù)據(jù)處理的不同情況進(jìn)行不同的業(yè)務(wù)處理,實(shí)現(xiàn)生產(chǎn)流程處理的自動化。另一方面,Platform Process Manager 和 Platform LSF的有機(jī)結(jié)合,可以充分利用Platform Process Manager提供的復(fù)雜流程定義、流程在線監(jiān)視和控制功能,同時(shí)利用Platform LSF 提供的靈活多樣的作業(yè)自動調(diào)度和處理,根據(jù)系統(tǒng)資源情況和作業(yè)優(yōu)先級,動態(tài)地調(diào)度作業(yè)運(yùn)行,確保衛(wèi)星數(shù)據(jù)處理流程的實(shí)時(shí)、高效。
實(shí)現(xiàn)基于時(shí)間窗的機(jī)器分組和多隊(duì)列管理。該衛(wèi)星數(shù)據(jù)處理平臺可用于監(jiān)測多個衛(wèi)星,要求能夠根據(jù)監(jiān)測衛(wèi)星的運(yùn)行情況,提供基于時(shí)間窗的機(jī)器分組和多隊(duì)列管理,從而可以根據(jù)系統(tǒng)運(yùn)行需要,合理地調(diào)配資源。Platform LSF提供了基于時(shí)間窗的機(jī)器分組和多隊(duì)列管理,可以根據(jù)系統(tǒng)運(yùn)行的需要,比如可以根據(jù)監(jiān)測衛(wèi)星的數(shù)量、衛(wèi)星數(shù)據(jù)處理的不同階段配置不同的隊(duì)列資源和機(jī)器分組,從而實(shí)現(xiàn)動態(tài)地進(jìn)行系統(tǒng)配置,優(yōu)化系統(tǒng)資源的使用,確保衛(wèi)星數(shù)據(jù)處理的實(shí)時(shí)、高效。
實(shí)現(xiàn)基于數(shù)據(jù)分布的調(diào)度策略。衛(wèi)星數(shù)據(jù)處理的數(shù)據(jù)量非常大,因此需要將不同衛(wèi)星的數(shù)據(jù)分布在不同的機(jī)器上,在進(jìn)行作業(yè)調(diào)度時(shí),就需要根據(jù)不同機(jī)器上的數(shù)據(jù)分布情況進(jìn)行相應(yīng)的調(diào)度。Platform LSF支持機(jī)器分組,可以根據(jù)數(shù)據(jù)的分布動態(tài)地調(diào)度作業(yè)的運(yùn)行,確保運(yùn)行作業(yè)的分布與數(shù)據(jù)分布相一致。
實(shí)現(xiàn)全面的負(fù)載監(jiān)控。Platform LSF能收集每臺機(jī)器各種負(fù)載信息,并支持負(fù)載信息擴(kuò)展,可以根據(jù)系統(tǒng)總體情況和設(shè)計(jì)需要,動態(tài)地設(shè)置系統(tǒng)資源情況,包括磁盤訪問、主機(jī)情況、軟件的許可證,用戶數(shù)等。
中國氣象局國家衛(wèi)星氣象中心副總設(shè)計(jì)師施進(jìn)明表示,倘若離開了Platform LSF基于網(wǎng)格技術(shù)的自動化作業(yè)調(diào)度系統(tǒng),是難以做到有條不紊地處理大量的衛(wèi)星氣象數(shù)據(jù)、讓計(jì)算中心的計(jì)算資源利用率達(dá)到85%以上的。Platform LSF幫助國家衛(wèi)星氣象中心實(shí)現(xiàn)了計(jì)算資源的共享和負(fù)載平衡,確保了計(jì)算資源的高可靠和高可用。
關(guān)于Platform Computing
Platform Computing是全球領(lǐng)先的集群、網(wǎng)格、云中間件和云管理平臺提供商,幫助客戶以經(jīng)濟(jì)、高效的方式管理、分配和使用計(jì)算資源,為企業(yè)的業(yè)務(wù)創(chuàng)新和發(fā)展提供全面支持。目前,Platform Computing的集群、網(wǎng)格和云計(jì)算解決方案已經(jīng)廣泛用于制造、能源、金融、電信、航空航天等領(lǐng)域。了解詳情,請?jiān)L問。