以下為現場速記。
中石化 石化盈科 數據部總經理 蔡春久
蔡春久:各位嘉賓、各位CIO同行們,下午好,我今天下午分享的題目是《標桿企業數據治理案例管理經驗分享》,我主要是以中國石化在過去20年當中積累的一些經驗和方法來講解。講之前簡要地介紹一下我自己,我畢業了20多年,前10年主要是做ERP等系統,最近10年一直在數據治理領域默默耕耘,我2008年加入中國石化負責一個非常大的項目,在中石化內部做了5年。最近這5年時間一直負責中國石化以外的數據治理的項目,我帶領團隊最近5年做了80個世界500強和中國500強數據治理的項目。
我今天下午主要分享三部分內容:第一,國內外數據治理管理現狀及發展趨勢。第二,主要以中國石化在過去20年當中數據治理管理工作的經驗分享。第三,我們有一些建議,如果要啟動項目有這樣的一個建議。
首先看一下國內的現狀,十九大其中就說到5個詞,創新、協調、綠色、開放、共享。其中有5個詞跟我們的大數據、云計算聯系得非常緊密,第一是開放,開放就是連接,隨時隨地地連接人和人、人和物、物和物。第二是融合,融合就是交互,交互打破一切從肉體、從實體走向虛擬時代。第三是洞察,讓計算無處不在。第四是精準,第五是共享,數據推動業務的發展。
我們再看看去年2018年在中國的數據管理和數據資產領域有10個比較大的事情,第一是去年在數博會上發布的《數據管理能力成熟度評估模型》,現在國家層面和各行各業在推廣。第二是去年銀監會發布了《銀行業金融機構數據治理指引》,這個引起了軒然大波,尤其保險和金融都在做數據治理。像證券行業、工業互聯網等聯盟都紛紛發布了調研問卷,去年工信部特意成立了數據管理應用推進峰會,主要是為了推動數據管理。另外信通院發布了數據資產管理實踐白皮書3.0,這些事情是去年比較重要的。
數據資產管理有8大痛點,第一是數據處理比較低下,第二是數據質量不高,我們在信息化投入很多,但是投資回報率并不是很高。第三是數據垃圾亟待進一步解決。第四是信息化投入這么多年,我們到底從信息化系統和數據里面如何評估它的價值呢?這是從業務系統來看的。第五是安全監管問題,安全問題在信息化處于非常重要的位置,信息化內部非常重視安全,這次針對貿易戰有一個預演習,很多系統都被攻破了,可見安全是非常重要的問題。第六是難以統籌,業務管理。第七是數據周期規劃混亂,第八是缺乏統一數據標準,很難達到應用的目標。我們現在談的人工智能、機器學習、AR、VR等是冰山的一面,如果下面做不到,這些等于是垃圾,是不好的一面。
我們今天講的是數據管理和數據治理,數據管理指的是通過規劃、控制與提供數據和信息資產職能,以獲取、控制、保護、交付和提高數據信息資產價值,從上面來看確實比較不容易理解。那么看看數據治理,我們在前20年有數據治理的名詞,主要是兩個作用,一是滿足內部風控的需求,像有的財務做假賬,有的敏感數據被泄密,這是風控方面的需求。二是為了滿足外部監控合規制度的要求。最近10年我們的數據治理和數據管理的概念在發生變化,數據管理是保證數據的計劃、建設、運營、監督全生命周期的管理,目前說的數據治理包含了數據管理。這是數據治理的廣義概念,就相當于我們目前說的數據資產管理。什么是數據資產?去年我們在中國的數據白皮書上是這樣發布的,是企業擁有或者控制的,能夠為企業帶來未來經濟利益的以實物或電子的方式記錄的數據資源,數據資產是能夠為企業產生價值的數據資源,這是我們的數據資產本身的一個官方定義。我們的數據資產管理是定義數據規劃、定義數據規范、技術實現、獲取數據,然后進行維護和運營,這是全生命周期。
我們看看百度百科對于數據資產是怎么定義的,其中有財務資產、房地產、實物資產。數據資產有幾個特性,第一是無形資產,去年國家財政部已經把數據資產作為一個會計科目,它是無形資產。第二數據資產是不可以替代的,數據資產是不可消耗的,它可以復制、可以共享,財務資產或者實物資產一花就用完了,數據資產不會貶值,像房地產可以折舊,當然我們這個時代比較特殊,可能10年前買一套房子現在升值得很厲害。
數據資產到底能解決哪些問題?我們回過頭來看企業里面到底有哪些數據,我們需要哪些數據,這些數據的標準是什么,這些數據是怎么分布的,存儲在哪里,怎么傳輸,怎么使用,誰來管這些數據,誰對這些數據負責,我們有沒有相關的制度和考核機制及工具管理這些數據,數據的保存周期是多長,哪些數據應該在線,哪些數據應該離線,哪些數據應該銷毀。我們剛才看了一些問題,數據資產有六大趨勢,首先是數據對象,傳統工業企業大部分管的是結構化數據,隨著新技術的出現,我們可能有更多半結構化、非結構化數據都在管,包括一些互聯網數據都在管。這是我們的數據對象,有很大的變化。第二是處理架構,傳統的工業企業都用傳統的工具做一些報表和歷史的分析,數據架構按照互聯網思維我們會采用一些分布式存儲、分布式計算等混搭架構做數據的處理。第三個是最大的變化是職能發生了變化,像企業里面有專門管人力資源的、有專門管財務的,但是沒有一個專門管數據的部門,我們更多的是IT部門在行使管理數據的職責,尤其一些大的央企和金融企業專門有獨立的數據管理部門,甚至這個數據管理部門是核心的部門。第五是管理手段,傳統的是簡單報表工具進行展現,隨著這種架構的變化,我們通過一些AI和智能化的工具來管理數據。第六是我們的應用范圍有很大的變化,以前的數據資產都是企業內部用的,將來的變化是不僅僅是企業內部,我們把各種數據、各種產品對外提供服務。
數據治理該如何理解,它就像一個蔬菜架子,數據架構管理是要把水果擺放的緊湊、穩定、便于取放。數據標準管理是水果規格一致,數據質量管理是保證沒有爛水果,元數據管理是描述水果的品種、價錢和產地,主數據管理是最核心、最重要、最受歡迎的數據,在超市里面最受歡迎的是放在專區的水果。全生命周期管理是水果保質期管理和下架管理,數據安全管理是防止被人偷吃、損壞,我通過這個形象的例子把數據資產給大家進行了簡要的介紹。
在國際上有一本書叫做《數據管理知識框架體系》,這本書是做數據管理、數據資產一定要看的,這是一個非贏利組織出的書。里面分成數據架構、數據開放、數據操作、數據安全、主數據、商業智能、文檔、元數據、數據質量,這本書在2017年英文版本已經出來了,大概今年7、8月份這本書的中文版本會翻譯出來。這里面又增加了三個職能:集成共享、數據評估、數據倫理道德。這本書的知識體系非常完整,我們參考它一定要做一些裁剪,不同的行業、不同的企業情況不一樣,可以做參考,但是不能完全形而上學地照搬。
第二個是國標,數據管理能力成熟度評估模型,這個模型主要參考了上面那本書,結合了中國的實情,這是我們做數據的專家花了三年時間才做出來的模型,去年在數博會上發布出來了。這里面有數據戰略、數據治理、數據架構、數據標準、質量、安全、應用和數據全生命周期。這里有數據戰略的規劃、有實施評估,第二個治理是狹義的治理,談到組織建設和溝通。另外是數據架構的模型、分布、集成、共享、元數據、數據標準,另外是數據全生命周期,把評估模型分成5個等級,我們可以結合國標自己做一個評價,我們到底處于什么水平,怎么提升數據資產管理的水平。
另外我們再看看去年發布的數據資產白皮書,這個跟前面兩個不一樣,增加了數據價值管理,數據是企業的核心價值,怎么做價值管理,我們的數據怎么做共享、怎么做分發應用。另外它有5個職能,把數據分為主數據、元數據、數據模型、數據標準和數據質量管理5個職能,另外有5項保障措施,這里面有戰略規劃、組織機構、管理機制和審計方式、培訓宣傳,數據怎么進行加密、怎么進行管理,另外我們要把數據做成服務,另外要做培訓宣傳,讓整個組織里面的員工對數據非常了解。
我們面臨這么多數據,怎么進行分層分級分類,這是我們最新的一個心得。我們從三個維度、三個方面來看數據,我們從左往右看,首先是元數據,同時可以按照結構化和非結構化進行分類,下面有很多結構化和非結構化數據。還有關系型數據、實時數據,我們分為通用基礎類的,像行政區域、幣種、語種。還有規則數據,再下面是交易數據,交易數據具有瞬間的特點,它是建立在主數據的基礎之上。另外是指標數據,指標數據是延伸的數據,它是基于交易數據做的一個指標數據。另外我們還有大量的實時數據,從設備、物聯網、物流運輸產生的數據叫做實時數據。我們把數據按照這幾個維度進行分類分層分級管理。
大數據最近也發布了一個白皮書,我們可以看看里面有一些術語,數據全生命周期、互聯互通、管理、行業應用。
我們剛才看了四個國家層面指導性的文檔,我們這三個理論框架是完全一致的,都有數據標準、數據質量、元數據、主數據、安全和數據架構,都可以說是國內國外最頂級的。DAMA2.0和DCMM都是這么講的。另外組織機構是各項管理框架的核心,我們有獨立的專業的數據管理部門來做數據管理工作。另外是工具,在數據資產管理實踐白皮書3.0里面提了大概3個工具,最近可能要發布4.0。國內也有一些特色的地方,像數據資產目錄在國內政府是比較典型的。要促進內部數據的共享交換,對外提供共享。我們的數據除了管理之外,還要把數據做成運營,要雙輪驅動,對外變現。剛才我們簡要分享了一下國家層面在數據管理和數據資產領域的幾份非常重要的文檔。
另外我們看看數據管理的發展趨勢,數據資產管理要成就企業的詩、遠方和理想,我們到底做到什么程度,我們看看幾個比較好的。以往IT部門都是成本中心,我們要把這種成本中心變成利潤中心、變成價值中心,向業務提供數據產品。未來我們更多的標桿企業是多種數據來源,集中采集,統一治理,把內部數據包括結構化和非結構化的數據統一存儲在數據資源中心,通過數據資源平臺和數據治理平臺對外對內提供產品服務。
我們現在談智慧地球、智慧工廠、智慧機器人等談了很多,這里的大數據、語音識別、圖文圖像、機器翻譯都是比較熱的名詞,我們怎么做呢?其實業務系統基本都差不多,我們要把所有業務系統的數據匯集到數據資源中心里面,最后變成各種各樣的服務,在數據中心里面做治理。這張圖是全過程我們都要做數據治理。通過分析模型,數據共享的主題,通過可視化的展現,對我們的業務可以做一些分析預警,通過創新應用端到端地做數據治理,使上下游的數據整合起來,建立企業級的大數據應用。我們要把數據推送到企業一線人員的手上,實現用數據說話、用數據管理、用數據決策的數字化企業。
我們作為一個工業企業,實際上我們把信息系統分成5層,有企業層國際標準ISA標準,還有管理層、操作層、控制層。我們劃分了一下,我們有DT層、IT層、OT層、IOT層,位置、設備、物品等都要連接起來,我們把這四個層面的數據全部匯聚到DT層面做一些資產的可視化。這里我們有數據治理平臺,通過集中的數據資源中心、通過主題展現做共享的數據庫,對外提供一些服務,這是我們做的全業務域的數據資源中心比較抽象的一個架構圖。
我們要打通IT和OT領域,我們以前往往做數倉和大數據分析往往是在IT層面,OT層面沒有打通,導致投資回報率并不是很高,這兩個層面我們要打通。如果我們的數據做得比較好就有效果,接下來分享一下數據資產從戰略到組織到標準到工具方面怎么落地,怎么做這件事情。這里主要是標桿企業的一些好的做法,我這邊分享一下。首先我們看看數據管理,最重要的是戰略、管控機制,組織是最核心的,如果連一個組織都沒有是很難做的。這是組織策略,集中式策略在金融行業、在某些行業是做得比較好的。第二種是聯邦式的策略,尤其在央企和國企有獨立的數據部門,在每個分公司也有一些數據部門,這是混搭結構,可能是比較容易落地的。第三是分布式的,分布式的比較少,是比較獨立的板塊。
我主要講第二種方式,其實第二種方式聯邦制由信息部門、技術部門,有主數據、技術架構和元數據的相關人員,在業務部門有數據治理的業務主管,包括業務分析師、業務專家在里面,我們要形成數據治理管理委員會。這是總部層面,在分子公司也是有這樣的崗位職責來對應。這是我今天早上剛做的,我們今天21號國家電網成立了大數據中心,就是一個實體部門,這是非常不容易的,邁開了第一步,成立了一個獨立的一級部門。右邊是國家電網集團成立的大數據中心,這是董事長和總裁親自成立的,這是非常大的趨勢,不僅僅是數據管理部門是放在IT部門來走的。這位美女我們都知道,前段時間炒得沸沸揚揚,大家看了也非常沉重。華為做數據已經做了10年,在過去的10年當中投資了數十億美金來做數據治理的項目。他的數據部門是一級部門,由CFO親自擔任,很多事業部都有獨立的數據管理部門來支撐這個事情。可見做得比較好的一些企業里面基本上有獨立的數據管理部門,而且是獨立在IT以外的部門來做這件事情。
數據領導委員會有集團戰略層,有跨職能部門,由各業態公司組成,由這種架構來保障。除此之外,我們還有決策保障,在場景架構師、產品經理、客戶體驗師、架構師、開發工程師、應用工程師等新的工種,因此需要人力資源重新定義這種角色,否則很難達到理想的效果。有了組織、有了人之后,數據資產中心怎么做?這里面主要是中石化的一個案例,中石化的信息化在央企的信息化當中連續5年排名第一,我們已經取得非常好的成果。我們建立了統一的數據資源中心,內部和外部的數據實現統一的數據模型,實現共享,互聯互通,實現數據驅動,創新業務。
這是我們挖掘數據價值,打造產業鏈的競爭優勢。其實在中石化有很多國家非常知名的系統,我們去年號稱是中國的工業品電商,我們去年達到4千億規模,像我們的A4打印紙中石化每年的規模都很大,我們的談判能力非常強。尤其國外的備品備件壓的價格非常低,我們通過實現數據的互聯互通,通過創新支持數據資產的運營,這是我們的一個做法。中石化有上千個系統,通過一個統一的數據存儲平臺,數據統一采集、統一處理、統一存儲,我們有數據共享服務中心和數據分析中心兩個中心,通過數據門戶,各級管理人員通過一個賬號和密碼可以看到所有相關的數據,我們叫做一平臺兩中心兩體系。
在2013年11月22日青島大爆炸,就因為這個大爆炸死了大概60多人,直接損失大概是7.5億元。這就是因為數據沒有管好,這個管道以前運行非常好,沒有出事,在信息化的投入也不是很高,大家都沒有關注。因為青島城市管道施工的時候把管道挖破了,當時就發生了大爆炸,這是非常慘痛的一個教訓,就是因為數據沒有管理好。
中石化投了20個億做智能化管道項目,這是非常典型的大數據應用場景,一方面我們的管道是遍布全國各地的,它有即時的數據、有業務的數據、有管道壓力的RFID、智能裝置、傳感裝置的數據。另外還有運營商的數據、輿情的數據、社會資源的數據,全部集中在大的數據資源中心,這里有很多,大概幾十個甚至上百個數據要進到數倉里面來,我們進行數據融合。這里面是從管道企業數據到綜合大數據,我們看看從數據集成到數據融合,構建管道大數據平臺,實現數據共振。從專業系統到智能化管道應用有一些管道的完整性評估、工況評估、事故追溯等。到后面是數據共振聚合思維來協同智能,從點到線到面實現整個數據管道的運營。
我們看看效果,這是我們的場站智能化運營,我們以往是靠人來管的,以往從10天到三個月不發生故障,如果發生問題能夠預先做智能的決策,實現數據共振、多元呈現、思維聚合,將場站涉及的全部數據整合在一起。
我們看下面的應用,這是數據共振,其實我們的一個管道非常長,可能有地震的原因管道破裂了,可能由于腐蝕的原因,一些管道在荒郊野嶺,我們通過可視化看到哪些地方有問題,進行及時的維修,就可以避免青島這種悲劇的發生。這就是聚合思維,以多元化、可視化展現調度,實現管道的可視化運營。剛才講了一個小的案例,通過大數據在工業企業的運營場景。
另外再看看數據治理,我們一定要做數據治理,如果數據治理不做就是垃圾。這是我們在“十二五”期間的一個架構圖,上千個信息系統做了三大平臺,一個是以ERP為核心的系統,另外是以MES為核心的行業專業系統,另外有一個基礎設施平臺。一個是安全,安全是紅線,一票否決。信息化是底線,不能逾越。這個平臺為所有系統提供共享服務的來源,像人力資源和財務共享比較多,我們把數據做成一個基礎數據共享,為用戶提供隨時隨地的全球的唯一的源頭,為主數據在線實現統一的審批。
這是中石化的信息化標準化體系框架,第一是應用標準,大概有100多個技術標準。第二是數據標準,分成主數據和指標數據,主數據大概有20個大類,大概有550多項數據。第三是應用標準,可以自動地生成內控文檔。我們主要是三個標準、兩個支撐,我們還有數據治理平臺,這是我們“十二五”期間的框架圖。
另外我們看看成果也非常好,中石化的高管領導是非常重視數據治理和數據標準化的。我們在2000年的時候成立了主數據團隊,大概20個人。我們2005年的時候也非常重視這種項目,像我們的高級副總裁帶著大概500個專家做中石化數據編碼的統一。我們到2016年現任的董事長戴先生是以前分管信息化的CIO,他就說了一句話,必須站在數據層面統籌考慮標準,一旦決定不能輕易改變。我們是按照業務部門牽頭,IT部門統籌管理,石化盈科作為技術支持單位。我們也取得了非常好的效果,搭建了中石化的信息標準化管理體系,主數據標準大概有1000多萬條標準的可信任的主數據,可以為1000多個系統提供應用。我們梳理了大概1萬多個指標項,定義了業務含義和概念的一致性、應用規則的一致性。同時開發了數據治理平臺,這個是已經落地的,這是我們取得的成果。
我們再看看跟數據資產管理相關的規范和運維體系的情況,數據管理有整體管理、數據質量、數據標準、主數據管理辦法、數據服務域、數據應用域的制度和流程保障,做到有章可循。我們有統一的運維體系,現在我們有70個人在內部做數據標準的事情,我們有統一的1000多萬條數據源頭,有一套制度保障,有一站式的服務,有統一的數據治理平臺來支撐。另外我們每類數據都有運維流程,我們還有比較好的運維方法,能夠做到數據全生命周期的管理,從代碼的標準化、從主數據的規范化、從數據應用的一致化,全面推進數據全生命周期管理。我們會看看用到哪些數據標準,如果要用標準化數據團隊就會進去,如果驗收的時候沒有按照這個標準,對不起,你不能驗收,錢是付不出去的,我們是非常強化這項工作的。
接下來看看數據治理平臺,中國石化也見證了中國數據治理工具的發展,其實我們大概分了四個階段,第一個階段是編碼時代,編碼時代是為了ERP做一些編碼,比如物料編碼、產品編碼。到了2005年當時是中國的ERP大建設時期,大概花了五年時間。到了2010年的時候就發現ERP做數據編碼是不夠的,我們在2010年的時候有MES、智能工廠和電商平臺都出現了,我們叫做數據標準時代。第四階段是到了數據服務,采用數據交換平臺進行服務,就產生了各種各樣的應用。到2018年名字改成了數據治理,更多的是面向大數據架構、面向工業互聯網、面向微服務架構。這是我們內部的四大階段,基本上引領了中國數據治理的潮流。
我們看看數據治理工具到底有哪些工具,最核心的是主數據管理,這是我們企業最核心的一塊內容。另外是指標,以指標為抓手,把元數據管理起來。還有數據質量、數據標準、質量報告等等,另外還有數據開發,這是我們建模的一個平臺。還有數據模型工具,數據模型怎么管理,這里有數據模型的工具。還有全數據管理工具,有數據清洗、數據共享,對應國家層面的數據資產白皮書的有8、9個工具,我們下面還有一些數據交換與服務的工具,我們把數據治理平臺真正地用數據服務提供有力的支撐。
我們再講一些經驗,其實國內有很多失敗的案例,坦率來講,我做的80多個客戶當中有一半是失敗過兩次最后找我來做的。我們首先看看第一個,組織保障是否能夠真正到位,我們有很多項目把數據做成IT項目、做成工具項目。我們大概有4個維度,標準規范、數據清洗、工具、規范缺一不可。我們要要培訓數據文化,第二是要調流程,第三是搭班子,成立專門的數據團隊。第四是定戰略,我們要真正用數據。
用戶是否真正愿意參與,我們買了一個工具,用戶不參與,IT自己唱獨角戲,不愿意用。另外是能不能用,這個工具能不能真正地解決問題,所以我們要總體規劃、局部試點、全體推廣,要迭代、要快速開放,按照微服務架構進行快速開發,否則這個工具用不起來。另外要現場跟蹤服務,做到保駕護航。我們能不能用、用戶愿不愿用,“用”才是真道理。
接下來說一下數據管理面臨的難點,我們在內部有四個難。第一是缺乏管理機制,最主要的是缺乏數據管理部門,缺乏數據共享的長效機制,數據共享制度不完善,質量參差不齊。第二是數據整合有限,孤島太多,傳統企業少的幾十個、多的上百個孤島。第三是需求響應太慢,業務部門希望快速的地響應,可能IT部門做得不夠,時效性比較差,就導致我們遇到困難。最后是企業高管領導對于數據的重要性在理念上是認同的,但是行動起來不夠,項目成本的限制導致我們很難快速迭代、敏捷開發,建模也比較難,數據挖掘的門檻過高。這是我總結的國內遇到的一些問題和困難。
在實施過程種我們總結了9步法則,第一是理需求,第二是劃藍圖,第三是定職責,業務部門、數據部門、IT部門之間的關系。第四是定標準,要做企業級標準。第五是清數據,要清洗數據。第六是搭平臺。第七是接服務,數據要為其它系統提供共享服務。第八是建體系,運維體系。最后是促應用,把我們的成果在整個集團層面全面的運用。
我們要構建企業級數據資產管理體系,要具備比較好的可落地性,要符合企業今后5到10年的框架體系,必須要有四個方面。第一是響應和貫徹企業發展戰略要求,緊扣企業數字化要求,深刻理解,從業務數據化到企業轉型的路徑來走。第二是最大化解決現實遇到的一些問題,要有針對性地解決問題,這是比較重要的。第三是我們做的數據架構一定要具備全面的權威的理論來源,這里有兩個,一是國際上的DMBOK,第二是國標,第三是數據資產白皮書,這些在業內是認可度比較高的。第四是比較先進的數據資產管理理念,數據治理和數據運營的“雙輪驅動”運營模式是數據生產管理化的必經之路。
我們要做數據治理,必須要面向數據資源中心,首先要機制落實,標準建設、數據工具系統建設,這是數據治理長期而復雜的工作,需要專業人員、專業團隊進行管理和服務,才能保證數據治理長效。
這里有幾本書是做數據治理一定要看的,第一本是《數據資產管理》,作者現在在南方電網,幫南方電網做5年。第二是《在線》,是阿里巴巴王堅博士寫的。第三是金融行業寫的比較領先的《銀行數據治理》這本書,還有《數據質量工程實踐》、《首席數據官實戰、《工業大數據》、《DAMA-DMBOK》,這是做數據治理必看的10本書。
另外推薦一個公眾號,是做數據治理和數據資產非常經典的公眾號。最后送給大家5句話:第一,數據是企業的核心競爭要素。第二,數據助力基于事實的決策。第三,數據是企業卓越運營的基石。第四,數據助推業務增長,占領市場。第五,數據是企業最最核心的競爭資產,要發揮它的價值。
謝謝大家!