第二代支付系統是我國經濟金融的重要基礎設施,必須確保其安全、穩定運行。第二代支付系統采用“兩地三中心”的架構,基本實現了系統自動切換和數據零丟失的目標。我國大型商業銀行及股份制銀行大多采用“兩地三中心”的架構建立其災備系統,而規模較小的外資法人銀行及外資銀行的分支機構雖然按照監管要求進行了核心業務系統災備建設,但災備等級較低,業務連續性保障存在不足。
本文針對支付清算系統參與者中規模較小的外資法人銀行及外資銀行分支機構進行研究分析,試圖找出適合規模較小的外資銀行可供參考的支付清算系統災備系統建設方案。
一、中小外資銀行支付清算系統災備系統建設原則
(一)高度重視,加強溝通協作原則
制定一個安全有效的災備系統需要高層管理者、部門管理者、法律合規顧問的支持參與,提供必要的人力、物力資源,各職能部門的通力合作,如人力資源部門、行政部門、信息科技部、業務部門等。如果沒有高層管理者的長期支持,就不可能采取全組織范圍內的行動。除高層管理者負責領導系統災備建設外,還應加強與外部支持機構、監管機構、應急管理機構的溝通協作。
(二)量身定制,兼顧管理成本與效益原則
災備系統建設方案應當根據銀行自身的發展需要量身定做,高規格的災備系統建設,需要投入大量的資源,對日常支持和維護也提出較高的要求;過低級別的災備系統則不能夠滿足應對災難的需求。商業銀行具有企業性質,是經濟組織,以盈利為目的,需要充分衡量災難發生帶來的損失、應負有的社會責任、對金融市場的影響、監管部門的要求、信用風險、法律及聲譽的風險等因素,兼顧管理成本與效益,制定切實可行的業務恢復目標。
(三)目標明確,計劃清晰易操作原則
在深入業務分析的基礎上,制定明確的恢復目標及優先級。災備恢復計劃中的策略及流程要清晰明了,各個部門能夠切實理解和執行,系統恢復易操作,保障有序恢復關鍵業務。充分考慮可操作性、行內技術及管理能力,體現“自主可控”,過于復雜的計劃往往會因為技術支持和管理能力的不足而失控。
(四)納入日常運營管理原則
一個高效的災備管理計劃需要一個循環進行的規劃、演練、評估和整改過程,以避免“重建設、輕管理”。參與應急管理與災難恢復的所有員工都要培訓,以按照明確的流程進行恢復和應付突發事件,并將災備環境納入日常監控和維護流程,保障災備環境的可用性。
二、中小外資銀行支付系統同城災備建設(一)中小外資銀行災備機房基礎設施建設現狀
建設自主運維的災備機房,對中小外資銀行來說不僅需要投入大量的資源進行建設,而且后期的維護成本較高,總體來看投入大于收益,可行性不高。因此,部分中小外資銀行因經營范圍及規模的限制,沒有建設自主運維的災備中心,租用災備外包服務商的部分場地及共享配套基礎設施,通過限制外包商對租用區域的訪問,控制物力安全。
外包服務的主要優勢包括:數據中心外包商按照國家數據中心機房建設標準進行建設;配有專業的電力供應、UPS設備、機房精密空調設備、消防安全設備等基礎設施;具有先進的環境監控系統,提供24小時不間斷的基礎設施監控服務;專業的維護團隊擁有數據中心實際運維管理經驗等等。
外包服務帶來優勢的同時,也帶來了外包管理風險,因此,商業銀行的管理責任不能外包。中小外資銀行應確定外包服務所涉及的信息資產的關鍵性和敏感程度,審慎確定災備中心服務范圍,還應充分審查、評估外包服務商的資質、專業能力和服務方案。
(二)中小外資銀行災備機房網絡建設方案設計
1、限制條件《第二代支付清算系統直接參與者接入環境驗收標準》中要求一點接入全國性金融機構必須具有備份機房。第二代支付系統參與者接入網絡要求專機專用,包括路由器、交換機、防火墻及服務器等設備,采用數據專線直接接入國家處理中心(NPC)或城市處理中心(CCPC),關鍵設備應實現熱備,關鍵線路應選用兩家以上的運營商。
2、方案設計按照災備系統的網絡建設兼顧管理成本與效益原則,根據參與者與CCPC接入方式,統籌考慮接入網絡的建設規格,可以選擇參照生產環境建設災備環境,充分考慮支付系統的業務量來合理配置生產環境與災備環境之間的通信線路帶寬,高速率數據專線帶來高的傳輸效率,但也需要一定的投入。
3、具體方案按照日均交易量小于500筆,日交易峰值小于5000筆的支付交易規模,綜合考慮支付報文發送頻率、維護成本、發生生產故障帶來的影響及應急預案后的災備系統網絡設計(見下圖):
網絡環境部署要點包括:(1)金融城域網生產環境使用中國電信和中國聯通專線各一條或為備份,連接CCPC,保障生產環境通信線路的可用性。(2)行內生產環境和災備環境之間,通過中國電信和中國聯通專線各一條或為備份連接。配置服務質量(QOS)保障支付系統數據通訊。(3)災備環境采用單機部署,部署一套設備,金融城域網通過東方有線接入上海CCPC同城轉接中心,通過CCPC內部路由可以訪問CCPC生產環境或CCPC災備環境。
(三)中小外資銀行支付系統災備系統建設方案
在商業銀行支付系統災備系統建設方面,綜合考慮業務量、業務中斷的影響、災備恢復小組的技能和投資收益情況,采取單機模式災備環境的具體配置建議如下:
1、生產環境支付報文傳輸平臺商業銀行前置機(PMTS-MBFE)主機采用雙機高可用性(HA)配置,采用單機部署模式接入城市處理中心。
2、災備環境PMTS-MBFE
主機采用單機配置,部署為生產環境的冷備機模式,災備PMTS-MBFE主機地址保持和生產環境相同。
3、在邊界防火墻上配置地址映射對PMTS-MBFE和人行支付報文傳輸平臺(CCPC-PMTS)主機進行雙向地址映射(NAT)。將CCPC-PMTSA和CCPC-PMTSB
映射為行內地址,將行內PMTS-MBFE
映射為CCPC分配的金融城域網內地址。
4、PMTS配置文件和MQ配置腳本中PMTS-MBFE和人行CCPC-PMTS主機地址保持不變,不需要針對災備環境修改支付報文傳輸平臺(PMTS)配置文件和MQ配置信息。
5、行內系統數據同步,通過數據庫應用軟件的同步(或鏡像)組件進行同步,不同的數據庫廠商大多提供了交易日志的傳送功能,全程由作業控制,主服務器定時向輔服務器發送日志,輔服務器處于備用(STAND
BY)模式下,定時按日志進行差異恢復。
6、使用域名服務器進行生產和災備地址的切換,應用程序使用域名代替IP地址對主機進行訪問,以降低因為主機切換對應用程序的影響。
三、災備場景設計和應急預案災難恢復和應急管理共同構成了業務連續管理(BCM),在災備方案設定的情況下,應針對可能出現的應急場景制定應急處置預案。合理的災難恢復場景設計需要明確在不同場景下的應急流程和措施,這是保障業務連續性計劃有效性的基礎之一。以下從信息科技角度簡述進行應急處理的思路。
(一)生產環境整體損毀,整體不可用
在此場景下,生產網絡與金融城域網連接完全中斷,生產PMTS-MBFE主機與CCPC-PMTS
失去連接。從系統層面上看第二代支付系統專項應急預案要注重啟動災備環境系統,強化與CCPC的溝通協調等環節,以確保災備環境可以順利接管生產系統并具備安全回切功能。啟用災備網絡接入金融城域網,使用PMTS-MBFE
冷備機接替生產,請求CCPC重置MQ消息隊列,恢復PMTS-MBFE與CCPC-PMTS
通信。
(二)生產環境可用,不能進入辦公區域
在此場景下,生產系統仍然可用提供正常服務,但人員不能進入辦公場所。從信息技術層面出發,第二代支付系統專項應急預案應側重于從災備場所遠程訪問應用、遠程技術支持及數據遠程備份等環節的管理,包括行內系統的數據異地備份及備份介質的異地存儲等。(三)PMTS-MBFE
生產主機系統嚴重故障
在此場景下,PMTS-MBFE
兩臺主機都發生故障,或存儲設備不可用,且在短時間內不能修復。從信息技術層面上講,應急流程較為復雜。具體包括:
1、整體切換到災備環境,金融城域網、PMTS-MBFE及行內系統切換到災備環境,該方案對數據同步及安全回切要求較高。
2、僅切換PMTS-MBFE
到災備環境,相當于啟用冷備機,可以通過防火墻的NAT映射,使PMTS-MBFE
冷備機通過行內網絡路由到生產環境訪問CCPC-PMTS,行內系統生產環境,通過修改DNS記錄,訪問災備環境的PMTS-MBFE
冷備機。同理,修改防火墻使CCPC-PMTS
可
以
訪
問PMTS-MBFE。此方案要求修改生產和災備防火墻的NAT和DNS記錄,對行內系統的應用和數據沒有影響。故障排除后切回PMTS-MBFE主機。
3、切斷生產線路與CCPC之間的連接,啟用災備線路和PMTS-MBFE
冷備機,PMTS-MBFE冷備機通過災備環境接入CCPC-PMTS,修改DNS使PMTS-MBFE對應災備主機,行內系統通過域名訪問災備環境的PMTS-MBFE
冷備機。此方案只需要修改災備環境防火墻設備和DNS記錄,對行內系統的應用和數據沒有影響。故障排除后切回PMTS-MBFE
主機。
(四)金融城域網參與者生產網絡環境不可用
在此場景下,生產環境主線路和備用線路發生故障,且在短時間內不能修復。從信息技術層面上看,主要涉及防火墻的地址重映射技術。應急處置大致步驟如下:
1、僅切換金融城域網參與者接入環境,需要修改災備環境防火墻,將CCPC-PMTS經行內映射的地址,再次映射為行內地址,該地址可以被生產環境防火墻訪問,修改生產環境防火墻的NAT設置,將CCPC-PMTS
經行內映射的地址指向災備環境的防火墻“再次映射的地址”。同理,修改防火墻使CCPC-PMTS
可以訪問PMTS-MBFE。PMTS-MBFE主機通過生產防火墻、再經災備防火墻和災備金融城域網訪問CCPC-PMTS主機。
2、啟用災備線路和PMTS-MBFE
冷備機,PMTS-MBFE冷備機通過災備環境接入CCPC-PMTS,修改DNS使PMTS-MBFE對應災備主機,行內系統通過域名訪問災備環境的PMTS-MBFE冷備機。此方案只需要修改災備環境防火墻設備和DNS記錄,對行內系統的應用和數據沒有影響,行內系統不需要回切。故障排除后切回PMTS-MBFE主機和金融城域網參與者接入環境。