可以將數據中心的可靠性保障技術分為兩個大類:一是數據中心內部的可靠性保障技術;另一個是數據中心間的可靠性保障技術。先來說數據中心內部的可靠性技術,主要包括三部分:冷備份、熱備份、輕量級備份。冷備份指的是數據中心發生故障時,備份系統未安裝或未配置成與當前使用的系統相同或相似的運行環境, 應用系統數據沒有及時裝入備份系統。備份系統需要臨時準備,數據備份介質(磁帶或光盤)恢復應用數據,手工逐筆或自動批量追補孤立數據,將終端用戶通過通訊線路切換到備份系統,恢復業務運行。顯然冷備份恢復時間較長,數據完整與一致性都很差。冷備份不適用于要求業務零中斷或無狀態應用的可靠性保障,當然冷備份方式投資較少,節省運維費用,可在一些承載不重要業務的中小型數據中心使用;熱備份指的是數據中心在正常運轉時,會實時將數據同步到備份系統,備份系統的指令、內存、所有狀態數據均與正在運行的應用系統完全同步。當數據中心發生故障時,不用追補或只需追補很少的孤立數據,備份系統可快速接替系統運行,恢復業務。顯然熱備份業務恢復時間短,甚至沒有中斷,數據保存完好。不過,熱備份投資大,平時運行管理較復雜,運維難度大,需要維護人力和資金都大,一般只在重要的數據中心業務中部署,尤其是一些不差錢的超大型數據中心有部署。有的數據中心業務即使有幾秒的中斷,都會帶來嚴重損失,這就必須部署熱備份的技術。冷備份和熱備份走兩個極端,對于那些中型的或者業務不是那么重要的數據中心,讓數據中心很難做選擇,于是又出現了介于兩者之間的可靠性技術:輕量級備份。輕量級備份方式中,備份系統的數據和應用系統周期性保持同步,時間上不是實時,當數據中心出現故障時,恢復時間介于冷備份和熱備份之間,輕量級備份數據實時性也較差,但不至于丟失嚴重,曾經備份過的數據會留下來。輕量級備份投資不是很大,運維難度也不高,適用于中型數據中心部署。
另一部就是數據中心間的可靠性保障技術,主要也包括三部分:同步容災、異步容災及半同步容災。同步容災就是建立異地數據中心,異地保存一份與本地數據中心完全一致的數據備份。當本地數據中心出現災難時,業務系統自動切換到異地的數據中心繼續運行向外提供不間斷服務。要保持兩個數據中心的數據完全一致,不僅技術實現上難度非常大,投資也非常大,同步容災意味著要建設一座或多座和現有本地數據中心完全一致的數據中心,投資往往高達數億資金,就是日常運維也要數千萬,一般只有金融和互聯網行業的大型數據中心才有部署。同步容災一步到位,對整個數據中心進行冗余備份,備份最為徹底,可靠性自然最高,可以自如應對地震、洪水等極端自然災害。異步容災也需要在異地建多座數據中心,不過對數據備份方式是異步的,周期性地進行同步,異步容災技術實現難度小,雖然數據落后,但必須保證數據完整一致性和可用性,異地數據會比本地數據落后一定時間,這個時間隨著采用的技術、帶寬、距離、數據流特點的不同而不同。異步容災對帶寬和距離的要求低很多,只要求在某個時間段內能將數據全部復制到異地即可。不過,既然數據不是同步的,在數據中心發生故障時,最近的一段時間數據會丟失,也許幾分鐘,也許幾個小時,這要看異步容災周期性同步數據的時間頻率。在同步和異步之間還有一個半同步容災。半同步容災基本等同于同步容災,同步容災要求前部分數據沒有同步完,不能進行下一組數據的同步。但在某些環境下,如帶寬距離時延均較大的情況下,這對性能影響非常顯著。半同步容災就是同步數據時遇到這種情況時,對數據多進行幾次讀寫,沒有及時同步過來的數據,通過后面的同步依然可以追回來,所以半同步容災更適合于實際應用。在數據中心間的可靠性技術中,實際上采用的基本都是這種半同步容災技術。
可靠性是一個與時間相關的標準,時間越長,可靠性越低。理論上任何一個數據中心隨著運行時間的增長,遲早都會出現故障。如果要求數據中心長期向外提供不間斷業務,就需要部署可靠性保障技術,提升數據中心可靠性,哪個數據中心都離不開它的護佑。