容災技術是災備系統的核心,技術因素考慮的是否完善,對于災備系統建設的成敗可以說起到非常關鍵的作用。如果災備方案提供商在企業災備建議之初,能從企業切實的容災系統技術和工程可行性出發,為企業找出最佳的災備系統建設路線,相信可以幫助企業的災備系統建設少走不少彎路。那么,企業在構建容災系統時需要考慮的技術因素有哪些呢?
(1)防范的災難范圍
災難的防御范圍,常規上大家重點考慮一些硬災難,包括服務器、存儲等硬件設備損壞造成的宕機;地震、火災、機房進水等造成的機房失效,也有空調損壞、多站供電斷電等意外;甚至當瘟疫蔓延時機房無法進入等極端情況。這類災難一般被稱為“‘硬’性災難”或“站點級災難”,意指整個站點失效,整個站點所提供的服務均被中止。
然而,還有很多災難類型,災難發生后,雖然建筑、設備、人員都是無損的,但整個機房站點同樣失效,整個站點所提供的服務同樣被中止。這類災難我們稱為“‘軟’性災難”或“類站點級災難”。它們帶來的后果同樣是災難性的、甚至更加嚴重。這種災難主要是由于一些惡意行為:外部黑客攻擊、內部高技術犯罪;和一些失誤行為:系統維護失誤、誤刪除重要數據、打入沖突系統補丁。。。等引起的。
“‘硬’性災難”或“站點級災難”的發生是管理人員能夠即刻發現的,造成的損失大多可以立刻評估、處理。而“‘軟’性災難”或“類站點級災難”大部分無法被管理人員立時發現,造成的損失一般要遠遠大于前者。而且,恢復起來很麻煩,需要企業投入更多的資源、承擔更多大的風險去解決。
(2)對企業當前業務的影響程度
目前很多服務性行業,如銀行、醫院等都要求其業務系統保證7X24小時在線運行,但在線系統的狀況可能略有不同,災備系統的建設首先不能修改現有生產系統的結構(如,災備設備以旁路的方式接入用戶生產系統),否則會可能產生對現有系統狀態的破壞和增加不穩定因素,導致今后生產系統維護增加極大的難度。其次,容災系統的實施應采取最為簡易和快捷的方式,工程上應具有可操作性、周期的可控性,實施周期要短,這樣才能最大限度地減小對原有在線系統的影響,提高容災系統建設的成功率。
(3)企業能容忍的恢復時間(RTO)
當計算機系統發生意外無法工作時,導致業務停頓所造成的損失程度,即企業對于系統發生故障時的最大容忍時間,業務稱之為RTO。這也是設計容災備份方案的重要技術指標。對于容災系統來說,它除了集群系統之外的其它容災系統,在災難發生后都需有一個恢復的過程,尤其遠程容災的宕機時間最長,那怎樣來解決企業用戶對容災系統所需的恢復時間呢?目前市場中主流的CDP持續數據保護技術在保證RTO方面,可以達到企業所需的分種級恢復的恢復時間要求,對于遠程容災更是可在30分鐘內恢復業務運行,而這種恢復時間也并沒有為企業增加額外的災備建設成本。
(4)企業能容忍的最大數據丟失量(RPO)
是否要求數據庫可以恢復所有提交的交易并且要求實時同步數據,也就是數據的連續性和一致性,決定了容災備份方案規模和復雜程度的重要依據。傳統的容災技術大多采用的是基于磁盤陣列或應用主機來實現的,因此數據的同步都局限于數據盤的數據同步,同步鏡像技術可以達到數據盤的數據同步,但異步鏡像無法達到數據盤的數據一致性,因此借住于快照技術達到同一時間點的數據盤的同步。但在技術中都無法確保實現運行業務系統數據的一致性。同是地,在恢復顆粒的精細程度上也有一定局限,恢復到發生災難前一刻的數據時間點或恢復到之前保留的某一時間點版本的數據,與快照技術及快照策略有非常大的關系,兩個快照之間的時間差是不可避免的,如果企業選擇的快照技術可以把快照間隔縮到最短(如,主流的CDP技術可以達到微秒級),企業則可以對業務數據實現最大化保護。
(5)技術的維護難度
由于長期以來,容災技術的復雜性和高成本性,使得大量的容災系統建設都呈現出維護難度大、傳輸故障的防范能力低、災備演習難度大的特征。因此,選擇的容災技術應考慮到技術實現和管理的友好性和簡易性,災備中心管理人員的本地可自行維護能力是一個重要的因素,這是故障快速響應和處理的一個基礎,這樣才能使得多極的維護體系更為有效率、處理故障的能力更為強大。
(6)是否適用于現有的業務系統,是否面向未來可能加入的其他業務系統
這是非常容易被忽視的一個因素。混合系統容災、開放設備的選擇常常使得用戶的理想與技術現實產生鴻溝。如果能夠在本次建立容災系統時,采用面向未來的技術,這樣就可以形成一次構建,長期受益的良好架構,而且今后的系統改造成本將會十分輕微,達到為全系統服務的長期目標。