中國西電集團公司(以下簡稱“中國西電集團”)成立于1959年7月,是以我國“一五”計劃期間156項重點建設工程中的5個項目為基礎發展形成的以科研院所和骨干企業群為核心,集科研、開發、制造、貿易、金融為一體的大型企業集團。目前,中國西電集團共擁有70余家各級子企業,職工逾兩萬人。
隨著信息化建設的浪潮席卷而來,以及集團業務規模的擴大,中國西電集團于2007年開始進行全面的信息化規劃與建設,徹底整合傳統模式下各個子公司各自為戰而誕生的一個個信息孤島。信息化管理部負責集團整體信息化建設規劃以及總部的集團管控信息系統建設。中國西電集團的整體信息化分為兩大系統進行規劃與建設,即:集團管控信息系統和子企業生產運營系統,用以支撐集團管控與子企業生產運營業務。
大平臺集中管控消除信息孤島
中國西電集團信息化管理部副主任趙紅武與筆者分享了集團信息化建設的經驗,并重點介紹了集團信息系統的容災解決方案。“管理信息化、數字化制造、智能化技術是西電集團信息化建設的三大支撐,有了這三大支撐系統,才可以支撐整個集團公司真正做到世界一流的輸變電集團企業”,趙紅武講道。
據介紹,集團管控信息系統規劃了財務、人力資源、營銷、集團審計、綜合統計與主數據管理系統,子企業也有一套生產運營信息系統,可以分為ERP(支持管理)、PDM(支持研發設計)、MES(支持制造過程管理)以及其他輔助的系統,子企業信息系統可與集團管控信息系統實現縱向的集成,這一縱一橫的集成的基礎便是企業ESB(企業數據總線)。趙紅武強調:“我們的信息技術不但要融入到管理中,而且要融入到數字化制造過程中,最關鍵的是我們的信息技術要能夠融入到企業的產品中銷售出去,增加產品的附加值,使我們的產品完全具有數字化、智能化的特點。”
在管理信息化方面,由于子企業的信息系統都要接入到集團的系統平臺中進行信息共享與存儲備份,因此對于集團系統平臺的業務連續性需求就會非常高。據了解,源于一次數據備份的恢復測試失敗,中國西電集團加快了容災系統建設步伐,于2009年正式開始規劃實施容災系統。關于容災系統的規劃,西電集團需要的是一個成套的解決方案,而不是一個軟件或硬件,容災系統不僅要能夠幫助集團實現整體容災解決方案,而且應兼具擴展性。系統的整體規劃和實施也是按部就班進行,首先對集團管控信息系統進行容災建設,其次隨著集團和子企業信息化建設的推進,再將各個子企業接入到容災系統中。
四維容災滿足可靠、快速的數據備份恢復
趙紅武講道:“容災系統實施時考慮了幾種我個人認為比較完善的容災方式:第一,我們有傳統的數據備份包括完整備份與增量備份;第二,我們采用存儲快照備份的方式,增大了系統備份窗口,在不影響業務系統運行的情況下實現了信息系統的高效備份與恢復;第三就是CDR連續數據復制,我們采用了數據庫和應用系統的連續數據復制技術,及時將數據庫的歸檔日志復制到我們的容災機房,并在容災機房的服務器上做了定時回滾的操作。在系統實施時,系統維護人員與容災系統服務提供商CommVault的工程師根據數據庫訪問情況、應用系統的補丁修改情況制定了科學的備份與同步策略,數據庫每半小時同步一次,這個策略完全滿足我們的需求。第四就是物理帶庫的備份方式,把備份的數據復制一份到磁帶,磁帶出庫后可以進行異地歸檔。”
中國西電集團在容災機房中配置了虛擬化服務器,為各個應用系統提供應用級容災服務器,CDR會把生產系統的應用復制到容災系統,當集團數據中心出現災難性事故時,容災系統可以在一小時左右啟動,接管數據中心的應用服務,保障了核心業務的連續性。目前集團管控信息系統已經通過傳統LAN備份、快照備份、CDR以及物理帶庫四種方式全面接入容災系統。
對于數據恢復成功率,趙紅武提出了自己的要求:“要保證在硬件和網絡沒有故障的情況下能夠百分之百成功恢復全部數據。在服務器、網絡都正常,存儲空間足夠的情況下,就要求系統能正常備份及恢復。其實備份恢復失敗的原因經常出現在存儲空間滿、服務器宕機、網絡故障等方面。我們之前采用的一款軟件就出現了備份之后恢復失敗的情況,并不是所有的企業都會象我們對數據災備如此重視,也就不會定期進行恢復測試,如果在需要的時候恢復失敗了,造成的后果將無法想象。這也是促使我們更換系統的一個重要原因。”
有的放矢的存儲網絡部署
趙紅武繼續介紹道:“各子企業信息化項目必須在集團公司正式立項后才能實施,子企業ERP、PDM、MES等重要的信息系統在建設之初就要規劃接入容災系統。隨著系統的上線運行容災備份也應同步運行。”
在中國西電集團容災項目選型中,能否支持多組織架構也是重要因素之一。根據中國西電集團的情況,集團下屬有數十家子企業,但是不能每家企業都采用一套獨立的容災系統,必須對容災系統進行整體規劃,每個子企業在系統上創建相對獨立的備份域,自行維護和管理。不僅在規劃存儲、服務器等資源時要考慮到擴展性,網絡上也是如此,集團數據中心與災備中心由4Gbps帶寬的SAN網絡和1Gbps帶寬的數據網絡連接的原因就是要考慮到未來子企業的容災接入需求。
本地企業可以通過集團的千兆裸光纖互聯,自然在容災備份方面不存在問題。但是在外地的子企業就會遇到跨地域網絡互聯的問題,網速和信息安全都是要考慮的問題。中國西電集團通過VPN隧道,將子企業接入集團數據中心與容災中心來保障信息安全,并為子企業制定了晚八點到早上八點的非工作時間進行備份的策略。
據介紹,中國西電集團目前運行一套存有2T數據的大型OA系統,OA系統有很多制度類的數據,雖然是多年前的,但是仍然會被頻繁檢索。趙紅武講道:“有時候員工還會在OA系統中根據關鍵詞檢索幾年前做過的一件事。系統采取兩種模式進行檢索:第一種是從數據庫檢索,當檢索到之后,系統會根據數據庫中的索引在文件系統中讀取需要的附件。第二種就是與CommVault共同測試的OA歸檔。由于時間很長,文件可能被歸檔到容災系統中了,如果有人需要訪問這類數據,數據就會自動從容災系統中取到生產系統。實際結果就是文件名還在,但實際上是一個很小的索引,鏈接到容災系統中的存儲位置,雙擊之后,該系統會自動從容災中心把文件取到業務系統,用戶只需雙擊就可打開,整個過程對用戶是透明的,而且基于高速光纖網絡互聯,并不會感到明顯延遲。當然,第二個人再訪問時就直接在本地打開,而不需再次訪問容災系統了。”
容災系統的理想與現實
趙紅武還說出了大多數運維人員的心聲,那就是:“在一切正常的情況下,領導不會特別重視容災項目,只有信息系統發生過嚴重事故,領導才會真正重視容災項目建設。”從訪談中了解到,雖然發生過一次數據中心供電故障,導致服務器大面積宕機,但是由于容災系統的可靠保護,并且搶修及時,并沒有造成數據丟失的嚴重后果。
由于此前的數據恢復測試失敗,以及一次供電問題導致的數據中心宕機,中國西電集團加快了容災系統的上線進程,并且建立了完備的數據容災備份制度。趙紅武介紹:“制度要求系統管理員定期進行數據的恢復演練和容災演練。在節假日,管理員就會把業務系統停掉,然后切到容災系統進行試用,如果沒有問題,就再切回業務系統。進行整套的切換、回切和數據恢復演練。”
趙紅武最后還強調:“我們倡導簡單IT的理念,就要越簡單越好。現在我們的IT系統搞得太復雜了,包括大家所探討的一些概念也過于復雜,IT要簡化再簡化。包括我們在招標容災軟件時,也有其他廠商的軟件系統,功能和效果都不錯,但是操作太復雜了。所以我們選擇CommVault的系統在很大程度上也是因為它的簡潔性。因為一旦系統復雜就容易出錯,容災系統不像郵件或OA系統的使用那么頻繁,容災系統上線后,系統維護人員不用每天進行復雜操作,只是定期登錄檢查日志,在正常的情況下不需要進行維護操作。所以如果整個過程太復雜,時間長了就會記不清,等發現問題想恢復時,要進行第一步、第二步、第三步等許多操作,操作復雜得具體怎么做都想不起來了,并且很容易出錯,這是是企業信息化管理人員無法接受的。”