你知道么,有些金融機構會用班車將數據備份磁帶庫的存檔到倉庫? 豐田汽車金融(中國)有限公司就是如此, 每周固定時間,都會派一輛車,從北京東三環的環球金融中心駛往京城東北某處一座樓宇。這輛車肩負特殊使命,就是將備份著豐田金融所有業務數據的磁帶送達指定位置。
數據通勤之旅
當前,信息系統成了企業運行的神經中樞。信息如果出錯,企業的神經系統就會紊亂。在信息化程度很高的金融機構,信息尤其重要。作為銀監會監管之下的一家金融機構,豐田金融都按照金融行業的高要求,保護著信息系統上的數據。
為了避免數據中心級的災難損毀數據備份磁帶,豐田金融在京城東北某地專門租用倉庫,異地保存磁帶。數據管理員要把新一批數據備份磁帶送到倉庫存檔,也會把一些舊磁帶取回來,當成空磁帶備份新數據,從而減少磁帶消耗和空間占用。
這趟定期班車已經行駛了很多年,而豐田金融采用磁帶備份的方式保護數據也用了很多年。當生產系統出現故障、丟失數據時,能夠從磁帶把數據找回來,恢復到應用系統中。
融合改變存儲構建
不過現在,這趟定期班車恐怕就要停駛了。改變這輛通勤車命運的,是豐田金融進行的新一代災備系統建設項目。該項目的目標是,讓災難恢復的速度更快——即使發生數據中心級別的災難,也能夠在 2 小時內恢復業務,對外營業。
在磁帶備份的方式下, 如果發生數據中心級別的災難,需要重新建立系統運行環境,從硬件、軟件、網絡和應用的安裝與調試,到數據恢復、校驗,要幾天時間才行。即使有現成的運行環境,從數據恢復、校驗到對外營業,也需要 6 到 8 小時。
為此,豐田金融跟 EMC 合作,先后開展了兩期容災系統建設。第一步,先選址北京城南某地建立新的數據中心,作為關鍵業務應用的生產數據中心,以及非關鍵應用的災備數據中心;第二步,升級原有的數據中心,作為關鍵業務應用的災備數據中心、非關鍵應用的生產數據中心以及開發測試環境。
兩個數據中心之間通過廣域網連接。這樣,數據就實時地通過網絡傳到另一個數據中心保存了。一個數據中心發生災難的時候,可以將應用切換到另一個數據中心。在那里,系統運行環境是現成的,硬件配置、軟件版本都隨時就緒,只要按照應急方案,將數據訪問切換過去、檢查校驗之后,就可以對外營業,整個過程能夠控制在 2 小時以內。
數據從坐車到走網, 業務連續性提升到一個新的臺階。EMC 咨詢服務團隊協助豐田金融完成了新一代災備系統建設的全過程,包括建立災難恢復計劃、需求分析、災備策略制定、技術路線及技術方案設計、災備建設實施、同城災難恢復預案、同城災難恢復演練、生產系統切換、虛擬化改造、運維和操作流程等內容,因此了解到,豐田金融在災備系統建設方面有著眾多值得學習之處。凡事預則立,不預則廢,豐田金融最值得學習的一點就是高度重視、堅持執行災備演練。
不一樣的演練
今年,豐田汽車金融(中國)有限公司每年一度的 IT 系統災備演練在北京舉行。這次的模擬場景是,位于城北某地的生產數據中心完全故障,需要將業務系統切換到位于城南某地的災備數據中心。演練結果表明,在一個數據中心完全故障的情況下,豐田金融可以在 2 小時內恢復業務、對外營業。通過演練,讓公司高層、風控部門、業務部門、IT 部門做到心中有數;通過演煉,讓各個崗位的人熟悉流程、明確職責,當真正發生信息系統災難時各司其職、有條不紊。
豐田金融值得學習之處在于:每年堅持做災備。從磁帶備份、數據容災的年代開始,每年 3 月都會做一次災備演練。在新的災備系統建成以后,由于演練的準備工作更容易,豐田金融計劃讓演練更頻繁一些。很多人都知道災備演練很重要,但是災備演練是一件比較麻煩的事,首先要制定應急計劃、建立應急體系,然后根據應急計劃準備災難場景, 培訓企業從上到下、多個部門的人員,利用或創造業務間隙進行演練。
因此,盡管不少企業在建成災備系統以后,也會進行災備演練,但是,災備演練能做到什么程度,則參差得很。有些企業的災備演練淺嘗輒止、不徹底,有些企業在做完一次災備便算大功告成,束之高閣。等真正發生系統故障時, 當時演練過的系統環境完全變了,人員也變了,流程不通了,根本不可能實現災難恢復目標。
當然,跟銀行類金融機構相比,豐田金融的一個有利條件,就是周六基本沒有業務,因此不需要為災備演練而暫停業務。運用之妙,存乎于藝。通過演練充分發揮產品技術的效用,使得豐田金融不需要最先進的產品技術,就能達到滿意的效果。
豐田金融的關鍵應用運行在Oracle RAC+小型機環境,另一部分應用運行在 VMware 虛擬化環境。在兩個中心之間通過 EMC RecoverPoint 進行數據復制,并通過實時運行的災備系統實現應用級災難恢復。虛擬化環境通過 VMware SRM 實現虛擬機在兩個數據中心之間不同物理機的漂移,從而實現應用級災難恢復。
從技術上講,EMC VPLEX + RecoverPoint是最先進的容災方案, 已在國內多家企業和機構采用。通過 VPLEX 可以實現數據中心雙活,兩個數據中心的數據實時同步,RPO(恢復點目標)和 RTO(恢復時間目標)都接近于 0;通過 RecoverPoint 可以實現數據回滾,當發生人為誤操作或軟件邏輯錯誤時,可以把數據回滾到以前任意時間點的狀態。
豐田金融并沒有采用這種最先進的技術解決方案,而只是采用 RecoverPoint 做數據復制。因為豐田金融風險控制部門根據實際業務需求,制定的容災目標是——RTO < 2 小時。這樣的目標,采用 RecoverPoint數據復制就能夠實現。
采用新技術固然不錯,但是一定要真正讓新技術發揮作用,這是 EMC 一直向用戶提倡的。豐田金融通過認真、嚴謹的災備演練,對應急體系建設常抓不懈,這樣,災備方案才能在關鍵時刻不負使命。豐田金融的做法值得學習。