用來描述和評價數(shù)據(jù)中心有很多專有參數(shù)和指標,通過這些數(shù)據(jù)可以反映出數(shù)據(jù)中心的各種運行狀態(tài),其中有兩個關鍵指標必須有所了解: RTO和RPO。RTO和RPO是數(shù)據(jù)中心災難恢復方面的重要參考指標。現(xiàn)在的數(shù)據(jù)中心對業(yè)務的連續(xù)性有苛刻要求,但是故障不可避免,一旦發(fā)生了故障就需要啟動備份機制,確保業(yè)務的連續(xù)性,所以現(xiàn)在數(shù)據(jù)中心都有較為完善的容災機制,RTO和RPO可以很好地反映出數(shù)據(jù)中心容災性能如何。這兩個參數(shù)是數(shù)據(jù)中心在運維過程中,一定要重點關注的指標。這個指標的好與差,是基于數(shù)據(jù)中心現(xiàn)有的各種綜合運行情況評估得出的真實結果,反映當前數(shù)據(jù)中心在災難恢復方面的修復能力。下面讓我們來詳細認識一下這兩個參數(shù)的真面目。
RTO
RTO(Recovery Time Objective,復原時間目標)是數(shù)據(jù)中心可容許服務中斷的時間長度。比如說服務發(fā)生后半天內(nèi)便需要恢復,RTO數(shù)值就是十二小時。RTO具體時間長短只是從故障發(fā)生后,從數(shù)據(jù)中心系統(tǒng)宕機導致應用停頓之刻開始,到數(shù)據(jù)中心系統(tǒng)恢復至可以支持各部門運作之時,此兩點之間的時間段。RTO是反映數(shù)據(jù)中心業(yè)務恢復的及時性指標,表示業(yè)務從中斷到恢復正常所需的時間,RTO數(shù)值越小,代表容災系統(tǒng)的數(shù)據(jù)恢復能力越強,數(shù)據(jù)中心可以部署很多容災系統(tǒng),來獲取最小的RTO,但這意味著投入大量資金。提升RTO的常用技術有:磁帶恢復、人工遷移、應用系統(tǒng)遠程切換,這幾種技術的RTO的表現(xiàn)如表1所示:
部署不同的容災技術將獲得不同的RTO值,從業(yè)務連續(xù)性角度考慮,肯定希望RTO數(shù)值越小越好,尤其是很多互聯(lián)網(wǎng)數(shù)據(jù)中心,中斷幾分鐘都會損失數(shù)百萬的成交量,這些數(shù)據(jù)中心往往不惜一切代價要確保數(shù)據(jù)中心不中斷運行。應用系統(tǒng)的自動切換涉及到數(shù)據(jù)中心網(wǎng)絡、服務器、存儲等多方面的技術,不管數(shù)據(jù)中心任何一個位置出現(xiàn)了故障,這些部分都會啟動軟件系統(tǒng)進行切換,可以是設備之間的切換,也可能是集群之間的切換,還可能是異地數(shù)據(jù)中心切換,通過應用系統(tǒng)自動切換將業(yè)務轉移到其它正常的系統(tǒng)中,然后再對故障設備進行排查。將故障原因找到并排除后,再將業(yè)務切回到原有系統(tǒng)中,應用系統(tǒng)切換做得好,這個過程不會引起業(yè)務的二次中斷,讓業(yè)務無感知切換。
RPO
RPO(Recovery Point Objective,復原點目標)是指數(shù)據(jù)中心能容忍的最大數(shù)據(jù)丟失量,是指當業(yè)務恢復后,恢復得來的數(shù)據(jù)所對應時間點,RPO取決于數(shù)據(jù)中心數(shù)據(jù)恢復到怎樣的更新程度,這種更新程度可以是上一周的備份數(shù)據(jù),也可以是昨天的數(shù)據(jù),這和數(shù)據(jù)備份的頻率有關,為了改進RPO,必然要增加數(shù)據(jù)備份的頻率才行。RPO是反映數(shù)據(jù)中心恢復數(shù)據(jù)完整性的指標。在同步數(shù)據(jù)復制方式下,RPO等于數(shù)據(jù)傳輸時延的時間,在異步數(shù)據(jù)復制方式下,RPO基本為異步傳輸數(shù)據(jù)排隊的時間。提升RPO的常用技術有:磁帶備份、定期數(shù)據(jù)復制、異步數(shù)據(jù)復制、同步數(shù)據(jù)復制等,這幾種技術的RPO的表現(xiàn)如表2所示:
RPO指標考驗著數(shù)據(jù)中心數(shù)據(jù)復制能力,這并不意味單純增加數(shù)據(jù)復制的頻率即可,因為應用的高峰時段無法進行備份操作,而且備份數(shù)據(jù)本身所花費的時間也會過長,數(shù)據(jù)復制頻率增加到一定程度反而會降低RPO時長。現(xiàn)在出現(xiàn)鏡像技術和快照技術可以有效地改進RPO,往往可以將RPO縮小到秒級。
RTO和RPO指標并不是孤立的,而是從不同角度來反映數(shù)據(jù)中心的容災能力。我們用下面的圖1說明下RTO和RPO兩個指標在數(shù)據(jù)中心故障處理過程中的關系:
從圖1不難看出,RPO指標來自于故障發(fā)生前,而RTO指標來自故障發(fā)生后,兩者的數(shù)值越小,就能有效縮短業(yè)務正常到業(yè)務過渡期的時間間隔,單一地提升RTO或RPO指標也可以縮減業(yè)務故障到過渡期的時間,具體從哪個指標上來改善,就要結合數(shù)據(jù)中心的實際情況分析,提升那個指標代價最小,效果更明顯。當然完美的方案當然是RTO和RPO都為零,這表示當故障發(fā)生后,系統(tǒng)立即回復,而且完全沒有數(shù)據(jù)丟失,要達到這樣的目標系統(tǒng)設計是及其復雜的,而且造價也是非常昂貴的,也不一定有這個必要。
RTO和RPO指標對于數(shù)據(jù)中心非常關鍵和重要,RTO主要考驗數(shù)據(jù)中心發(fā)生故障時,業(yè)務切換到容災系統(tǒng)或者備份系統(tǒng)的能力,RPO主要考驗數(shù)據(jù)中心數(shù)據(jù)備份能力,尤其是當數(shù)據(jù)中心發(fā)生故障時,仍要具備一定的數(shù)據(jù)備份能力。但數(shù)據(jù)中心也不能過分地追求RTO和RPO,因為RTO和RPO越小,意味著投資將越大。而總體投入成本越高,投資回報率將越低,從經(jīng)濟角度考慮,最好的容災解決方案不一定是效益最好的容災方案,容災方案的總體投入和投資回報也是必須要考慮的設計指標,最佳的解決方案必須是在RTO、RPO、運維及價錢多方面,都能夠達到平衡。所以要理性看待RTO和RPO,一方面我們努力設計一些新的容災技術,另一方面還要簡化容災技術的復雜度和造價,不要一再去追求RTO和RPO指標,有時數(shù)據(jù)中心有些缺陷,也是一種缺陷美。過度追求RTO和RPO指標,甚至做到兩者都是零,反而讓數(shù)據(jù)中心更加臃腫,運維難度大,耗費資金過多,數(shù)據(jù)中心要避免陷入單純追求提升兩個指標的怪圈,結合數(shù)據(jù)中心實際情況,因地制宜地適當提升兩個指標,才是正道。
如果您在企業(yè)IT、網(wǎng)絡、通信行業(yè)的某一領域工作,并想把自己的想法或觀點分享出來,歡迎給企業(yè)網(wǎng)D1Net投稿,投稿郵箱:[email protected]