2006年,中國人民銀行提出加快支付清算系統的建設,完善金融基礎設施,實現會計核算業務處理和數據管理的全國集中,提高中央銀行會計核算的質量和效率,改進對銀行業金融機構的結算服務,在短期內完成支付清算系統災備系統建設,提高系統應對災難等突發事件的危機處置能力,保障支付清算系統的高效、安全、穩定運行。
2014年,第二代支付系統(CNAPS-G2)和中央銀行會計集中核算系統(ACS)幾乎同步在全國推廣建設。為保障業務連續性,支付清算系統必須構建一個完善的容災系統。本文通過分析現有的災備技術,探討第二代支付系統災備系統的建設方案。
一、支付系統及其災備系統建設的必要性
第一代支付系統由業務系統和輔助支持系統構成。業務系統包括大額支付系統、小額支付系統和支票影像交換系統;輔助支持系統包括清算賬戶管理子系統和支付管理信息系統。
隨著近年網上銀行、電話銀行等新興電子支付業務飛速發展,第一代支付系統逐漸不能滿足銀行業金融機構靈活接入的需求,不能有效地對非銀行支付服務組織提供支付類服務。2010年,人民銀行開始構建第二代支付系統,支持“一點清算”,新增了“資金池”管理、自動拆借、“一攬子”流動性實時查詢等流動性風險管理功能。第二代支付系統的設計,引入了先進的支付清算管理理念和技術,豐富了系統功能,實現了適應新興電子支付、面向參與者管理需要的發展要求。
隨著第二代支付系統全國推廣的完成,第一代支付系統在業務運營和風險管理方面存在的各種不足得到了較好解決。但同時,第二代支付系統“一點接入、一點清算”模式下,支付系統安全穩定運行的風險更趨集中,支付系統對業務的連續性運行要求以及對各參與方的信息安全要求也會越來越高,這就要求第二代支付系統必須構建一個完善的容災系統。
二、災難恢復及容災能力衡量指標
2005年4月,國務院信息化辦公室制定并發布的《重要信息系統災難恢復指南》(以下簡稱《指南》)參照國際相關標準,并結合國內實際情況,將災難恢復應具有的技術和管理支持分為六個等級,每個等級都包括數據備份系統、備用數據處理系統、備用網絡系統、備用基礎設施、技術支持、運行維護支持及災難恢復預案等七個要素。如要達到某個災難恢復等級,應同時滿足該等級中七個要素的要求。
根據《指南》的描述,容災抗毀能力可以用4項指標來衡量:一是恢復點目標(RPO):指出現災難之時到可以讓業務繼續運行的時間。二是恢復時間目標(RTO):指信息系統宕機導致業務停滯時開始,到信息系統恢復、業務恢復運行的時間。三是降級操作目標(DOO):指宕機恢復以后到第二次故障的災難以后的時間。四是網絡恢復目標(NRO):指用戶在災難發生后可以連到災備中心的時間。
三、構建容災系統的主要要求
災備技術應用主要源于對數據的保護,其核心的技術思想是為數據在異地創建副本。災備技術就是利用數據保護的基礎技術在幾十公里、數百公里甚至千里之外的系統中創建數據的副本,實現生產系統和災備系統的數據同步。綜上所述,我們了解了整個容災系統的特性和需求后,可以明確容災系統的構建,首先應該注重以下幾個方面:
一是保持支付清算業務系統的連續性。這是容災系統的核心要求,當災難發生后,容災系統能夠及時有效地接管生產系統,開始支付業務的處理。
二是保障各項數據的完整性和一致性。容災系統必須能夠保證生產系統和容災系統的日常數據備份有效,并在緊急系統切換過程中不能有數據遺失。
三是綜合考慮系統風險和建設成本。從理論上說,系統保障效果越好,安全等級越高,建設成本也會隨之增加。因此在容災建設的設計之初就應該綜合考慮風險和成本的因素,根據自身的業務范圍和要求,合理地設計相應的容災等級。
四、傳統災備技術的問題和缺陷
(一)傳統災備技術
1、基于傳統備份的災備技術。利用傳統備份技術,將數據備份到存儲介質,之后再將介質運送至災備中心。傳統備份技術已被大量應用并被熟知,傳統備份技術在成熟度及成本上具備優勢,但應用于災備系統中具有一定的局限性,主要表現在:備份時間長,無法實現實時災備;災備數據的有效性檢測復雜,且數據格式在備份過程中進行了轉換,恢復時間長。
2、基于鏡像的災備技術。源數據被創建和更新的同時,其副本也被創建和更新。鏡像主要有兩種鏡像方式:一是同步鏡像,二是異步鏡像。完成生產卷和鏡像卷的數據同步,數據同步的處理單元是每個寫I/O
數據同步鏈路,一般為FC鏈路或是高速IP鏈路。(1)同步鏡像:數據的每個I/O寫操作會同時在生產卷和鏡像卷上完成,生產卷的寫操作完成之后需等待鏡像卷完成寫操作,才能進行下一個I/O操作。要求存儲生產設備和鏡像設備的性能保持一致,如鏡像卷性能低于生產卷性能,性能會嚴重衰減。其優勢是RPO趨于零,數據理論上為零丟失。(2)異步鏡像:與同步鏡像不同的是,生產卷的寫操作完成之后無需等待鏡像卷完成寫操作,才能進行下一個I/O操作。所以,生產設備和鏡像設備的性能無需一致。其優勢是可依據實際需求,設定災備鏈路帶寬。
3.
基于復制的災備技術。創建和實時更新源數據的副本,實現上劃分為兩個階段:首先進行全拷貝;下階段根據源數據的變化,通過同步變化數據,進行副本的實時更新。復制技術是一項遠距離數據同步技術,通常采用IP網絡作為災備鏈路,無距離限制,IP可達,災備便可實現。復制技術的數據同步機制基于變化的數據塊(有數據寫入發生的數據塊),區別于鏡像技術基于I/O。
(二)傳統災備技術的難題
在傳統的災備部署中,主要會遇到三大難題:1、災備中心和生產中心的物理距離,即災備半徑。災備半徑的大小是衡量災備的重要指標之一,理論上來說,災備半徑越大,容災的效果越好,但同時也必須考慮到容災系統跨廣域網部署的時候,如何克服FC技術在傳輸距離上的限制。2、面對生產中心各種繁雜的業務系統、以及各項系統不同結構的封閉環境帶來的兼容互通性問題,尤其是對商業銀行來說,業務是根據市場的需求而不斷變化,相應的系統也就隨之需要不斷的升級改造,甚至更換。3、現在的容災技術多種多樣,實現的方式有基于網絡層的、存儲層的還有應用層的,實現的級別也有應用級、數據級、備份集等等,該如何避免初期的技術選擇方向上不出現偏差?
(三)現有容災系統的缺陷
在容災系統運行一段時間之后,決策者們往往會產生一些困惑,因為常常會發現,做了艱巨而復雜的工作,卻沒有達到理想的容災備份目標,仍然沒有能夠建立一個完善的災難備份的技術體系。有災無備、設備封閉局限、高額的通訊成本、災難后的響應速度慢等不理想的局面紛紛出現。究其原因,就是容災系統存在的幾個比較明顯的缺陷:
1、傳統的面向科學計算的容錯技術對于現在面向事務處理的,也就是說基于簡單備份冗余的容災體系結構面對當前復雜的網絡計算環境已經力不從心。2、面對大量膨脹的結構化和非結構化數據,存在著難以恢復、恢復步驟復雜、恢復時間長、恢復效率低等技術難題。3、絕大部分的容災系統都存在著監控分析、故障診斷自動化程度不高,還有相當一部分金融機構仍然依靠人為因素來控制信息系統的風險,應對突發事件和抗風險的能力比較薄弱。
五、基于虛擬化技術的新型災備系統
傳統災備技術實現的不全面性以及容災系統建設規劃的不全面,導致了容災系統建設的投入產出不夠理想。正因如此,基于虛擬化技術的新型災備系統逐步浮出水面。
在虛擬化技術的災備解決方案中,把要備份的目標定義為工作負載,這是指獨立于硬件平臺之上的一些應用運行環境,包括操作系統、數據和應用。在災備領域中,虛擬化技術盡管有其復雜性,不過它能夠從任意地點在任何服務器上發揮災難恢復作用,而不用考慮服務器的硬件兼容性的特性,這使得它必將成為災備行業未來IT應用中的重要技術之一。
虛擬化技術災備解決方案的核心思想就是雙向復制,雙向數據復制的最大好處是副本數據立即可用,沒有數據恢復時間,RTO非常好。因為是實時復制,RPO也非常好,幾乎不會丟失多少數據。
對于安裝了Novell
自動化遷移技術的設備,比如是一臺服務器,或者是廠商提供的一個災備設備,第一步是通過P2V(Physical
Serverto
Virtualmachine,物理服務器向虛擬機遷移)技術,把物理服務器工作負載遷移到虛擬服務器上,或是V2V(Virtualmachineto
Virtualmachine,虛擬機向虛擬機遷移)技術,通過網絡把被保護的虛擬機將工作負載遷移到災備系統里作為虛擬機集中運行。通過這樣一個基于虛擬化的災備技術,可以為用戶提供一個既支持本地容災、又支持網絡容災的系統。
由于虛擬機的環境和被保護的服務器環境是完全一樣的,所以啟動后,它可以對外提供服務。用戶連接到災備系統里的這臺虛擬服務器上,保證被保護的服務器停機時間最少,數據丟失量也是最少。被保護的物理服務器得到修復后,在災備系統里運行VtoP(Virtual
machine
to
Physical
Server,虛擬機向物理服務器遷移)的操作,也就是災備系統里的虛擬機可以重遷移回物理服務器上,這就是整個災備工作的流程。
在虛擬化災備解決方案中,最關鍵的技術之一是雙向的遷移技術。P(Physical
Server,物理服務器)、V(Virtualmachine,虛擬機)、I(Imagearchive,映像)三者之間可以做到雙向的、自動化的、基于策略的遷移。P2P是從一個物理機把工作負載遷移到另一個物理機;P2V是把一個物理機的工作負載遷移到一個虛擬化平臺上;V2V和V2P是把虛擬機從一個虛擬化平臺通過網絡遷移到另一個虛擬化平臺,或從一個虛擬機把工作負載遷移到一個物理機上。了解了P、V、I三者之間的雙向的、自動化的、基于策略的遷移,就很容易理解基于虛擬化的災備解決方案。
虛擬化災備技術的優勢還包括:在系統發生故障或災難時,恢復工作負載的流程非常簡單;減少災難恢復解決方案代價昂貴的缺點,通常需要一對一的冗余硬件和軟件資源;較好實現災備并能方便完成持續測試,能夠保護混合物理和虛擬機中的工作負載;在做增量復制時,可以設定網絡帶寬,防止網絡帶寬耗盡,影響到其他業務運營。
采用雙向復制的方法能夠很好地達到所設想的要求,實時數據同時在災備中心產生可用的副本,此數據副本不需要進行人工干預做數據恢復,即可投入使用,當信息系統故障恢復后還可還原回去。
當生產服務器突然發生故障或者因其他原因停止工作時,和生產服務器同步的虛擬主機開始啟動,它的角色將轉換為主服務器工作。當生產服務器恢復業務運行后,虛擬主機上包括操作系統、數據庫、應用程序和其他相關數據都被無縫地遷移回原來的主服務器。完成這些操作只需要簡單的幾步操作或者能夠實現自動切換,讓用戶感覺不到業務的中斷,如果能夠完全實現這種我們稱之為虛擬化技術的方案,也許支付清算系統再也不會出現因系統原因導致的區域性業務中斷。
綜上所述,信息系統災備建設是一個系統性工程,不單單是系統或者基礎建設的多樣化能夠覆蓋的。居安思危、有備無患,是信息系統災備建設的核心思想,也是業務生產的最后一道防線,在這之前還應該全面整合銀行支付清算系統容災恢復業務流程,提前做好支付清算系統恢復計劃、人員操作連續性計劃等等,以便于更有效地協調各方面的資源,做好災備日常管理工作,使銀行能夠通過提供持續的金融服務,獲得持續的盈利能力。