1數據治理的背景和現狀
1.1數據治理背景
隨著網絡和信息技術的不斷普及,人類產生的數據量正在呈指數級增長。大約每兩年翻一番,根據監測,這個速度在2020 年之前會繼續保持下去。這意味著人類在最近兩年產生的數據量相當于之前產生的全部數據量。
大量新數據源的出現則導致了非結構化、半結構化數據爆發式的增長。信息數據的單位由TB-PB-EB-ZB的級別暴增。這些由我們創造的信息背后產生的這些數據早已經遠遠超越了目前人力所能處理的范疇。如何管理和使用這些數據,逐漸成為一個新的領域,于是大數據的概念應運而生。
圖1 數據治理背景圖
1.2數據治理現狀
大數據的快速發展,使它成為IT領域的又一大新興產業。據中央財經大學中國經濟管理研究院博士張永力估算,國外大數據行業約有1000億美元的市場,而且每年都以10%的速度在增長,增速是軟件行業的兩倍。我國2012年大數據市場規模大約4.7億元,2013年增速將達到138%,達到11.2億元,產業發展潛力非常巨大。我國大數據飛速發展的背后存在諸多的問題:相關利益交織,協調難;方案規劃容易,落地困難;過度依賴技術工具;對于數據沒有明確區分。
圖2 數據現狀分析圖
2數據治理策略
2.1數據治理要素
圖3 數據治理要素分析圖
2.2數據治理策略
第一步:落實合適的人員負責治理。
任何成功的數據治理計劃的第一個步驟就是,要在本企業找到CEO可以授權的人,然后讓該人負責項目的具體實施。沒有什么能取代強有力的領導人。
數據治理是涉及人事的一個難題,這需要在許多不同的利益相關者之間達成共識。因而,在本企業里面選定這樣的領導人是一項重要工作。治理官員一旦選定下來,就要成立由企業的利益相關者組成的治理委員會,制訂監管政策、向CEO及董事會報告進度。
第二步:調查清楚所處環境。
一旦選定了領導小組,就要調查當前情形,并清查不同部門在不同領域的當前最佳實踐。領導小組需要越過獨立系統看待問題,而企業數據治理評估方法對這項工作來說必不可少。這有助于比較本企業的數據治理計劃目前處于什么狀態,并且提供了一份路線圖以便確定以后的目標。
第三步:制訂數據治理策略。
數據治理評估之后,治理委員會就應當考慮制訂遠景,希望公司的數據治理實踐在接下來的幾年達到何種目標,根據這種需求為未來制訂遠景。委員會應當向后規劃,并且制訂切合實際的里程碑和項目計劃來填補相關的缺口。具體辦法就是制訂關鍵績效指標來跟蹤進度,并且向CEO和董事會提交年度報告來證實成果。
第四步:算出數據價值。
估算數據價值。要是公司不知道數據的價值,它們就無法提高、保護或者評估數據對賬本底線的價值。數據不是一種普通商品,而是像水龍頭里出來的水--對生命至關重要,又往往被人們認為是理所當然的。你要是不知道某物的價格,就無法算出它的價值。
如果你想算出數據的價值,就要根據用戶權限和IT服務的效用,為數據建立內部市場。當本企業的每個人都在直接付費獲取IT服務和數據時,數據的價值就成了公司價目表上的一部分。
第五步:算出風險概率。
知道數據在過去是如何使用和濫用的,這有助于了解數據在將來會如何被危及和披露。每家企業都有一些原因,如一些事件和損失在獨立系統、層次體系和商業報告中消失。這些數據已經可供使用,卻沒有被大多數企業所使用。收集這些數據,與其意義聯系起來,并研究長期的損失趨勢,這可以幫助任何企業把風險管理轉變成基于事實的商業智能方法,從而可分析過去事件,預測未來損失,改變當前的政策要求,成為未來改善風險緩解策略。
第六步:密切關注控制措施的效果。
數據治理在很大程度上涉及企業的組織行為。企業每天在變化,因而它們的數據、價值及風險也在迅速變化。遺憾的是,大多數企業每年對自己只評估一次。要是公司無法改變組織控制措施來滿足每天或者每周出現的需求,也就談不上變化治理。
圖4 數據治理實施建議圖
3元數據管理
3.1元數據的定義
技術元數據是存儲關于數據倉庫系統技術細節的數據,是用于開發和管理數據倉庫使用的數據,它主要包括以下信息:數據倉庫結構的描述,包括倉庫模式、視圖、維、層次結構和導出數據的定義,以及數據集市的位置和內容;業務系統、數據倉庫和數據集市的體系結構和模式;
業務元數據從業務角度描述了數據倉庫中的數據,它提供了介于使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠“讀懂”數據倉庫中的數據。業務元數據主要包括以下信息:使用者的業務術語所表達的數據模型、對象名和屬性名;訪問數據的原則和數據的來源;系統所提供的分析方法以及公式和報表的信息;具體包括以下信息:企業概念模型:這是業務元數據所應提供的重要的信息,它表示企業數據模型的高層信息、整個企業的業務概念和相互關系。
3.2為什么要進行元數據管理
圖5 數據管理分析圖
3.3數據模型標準化
圖6 數據模型示意圖
3.4標準化體系(數據定義&模型設計)
標準化體系:一定范圍內的標準按其內在聯系形成的科學的有機整體。標準化體系它規定了質量方針、目標、職責和程序,并通過建立相關體系進行過程管理、質量策劃、質量控制、質量保證和質量改進。
圖7 標準化體系示意圖
4主數據
4.1主數據的定義
企業主數據分散存儲在企業各系統內,是對企業至關重要的核心業務實體的數據,比如客戶、合作伙伴、員工等。
4.2為什么要作主數據管理
主數據管理(MDM Master Data Management)描述了一組規程、技術和解決方案,這些規程、技術和解決方案用于為所有利益相關方(如用戶、應用程序、數據倉庫、流程以及貿易伙伴)創建并維護業務數據的一致性、完整性、相關性和精確性。
主數據管理的關鍵就是“管理”。主數據管理不會創建新的數據或新的數據縱向結構。相反,它提供了一種方法,使企業能夠有效地管理存儲在分布系統中的數據。主數據管理使用現有的系統,它從這些系統中獲取最新信息,并提供了先進的技術和流程,用于自動、準確、及時地分發和分析整個企業中的數據,并對數據進行驗證。
圖8 數據管理原因分析圖
4.3如何做好主數據管理
通過單一平臺上成熟的多領域MDM集中主數據的管理,從而消除點對點集成,簡化您的結構,降低維護成本,改進數據治理。Informatica MDM(主數據管理)能夠通過以下步驟幫助企業成功進行多領域主數據管理:
1. 建模:用靈活的數據模型定義任意類型的主數據
2. 識別:快速匹配和準確識別重復項目
3. 解決:合并以創建可靠、唯一的真實來源
4. 聯系:揭示各類主數據之間的關系
5. 治理:創建、使用、管理和監控主數據
4.4主數據實施流程
圖9 數據管理實施流程圖
4.5主數據管理體系
圖10 主數據管理體系流程圖
5數據質量管理
5.1數據質量問題
·數據的值域
·數據的定義
·數據的完整性
·數據的有效性
·業務規則
·結構完整性
·數據轉換
·數據流
5.2組織架構設計
圖11 架構分析圖
5.3數據質量治理流程
圖12 數據質量治理流程圖
5.4數據治理管理方法
建立合理的數據管理機構、制定數據質量管理機制、落實人員執行責任、保障組織間高效的溝通、持續監控數據應用過程和領導強有力的督促是保障企業數據質量的關鍵。
圖13 策略與方法分析圖