面對復雜度不斷增加的業務數據,如何才能全面保證數據質量?可以借助完備的Informatica數據質量平臺,無論何時何地,您都可以在整個企業內訪問,甄別、清洗、集成、交付可信的數據,并在第一時間找出并修正藏匿于任意位置、令您的公司動輒花費上百萬的數據質量問題。
Informatica的數據管理目標
調查顯示,信息的價值平均為企業價值的37%,這也讓越來越多的企業更加重視數據中心的建設。但有許多因素會導致這些“資產”貶值,比如數據的冗余和重復導致信息的不可識別、不可信,信息時效性不強,精確度不夠;結構或非結構數據使整合有困難;人員變動引發的影響;數據標準不統一,相關規范不完善造成對數據理解的不充分等等。
為了充分實現數據資產的業務價值,您需要一個數據集成平臺。Informatica既可以在數據架構層面提供信息傳遞、B2B數據交換、企業數據集成等一系列的基礎架構解決方案,同時也可為行業提供數據質量管理、主數據管理和復雜事件處理等方案,來支撐數據中心實現可信、交互、權威的信息資產管理,達成企業的業務目標,這也是信息中心建設的一個重點。
數據質量管理的整體框架
數據質量管理在數據中心建設中是一個完整的生態鏈。數據質量會受到供應商、生產員工、工藝流程以及內部客戶和外部一些系統的影響,同時,從應用和軟件角度方面講,數據提供者、軟件開發集成、質量管控手段等也都會影響到企業數據質量的整體狀況。從數據質量整體框架和方法論上講,首先我們要了解數據現狀、確定目標,然后要清楚用什么人,通過怎樣的流程,采用什么樣的技術來支撐和達成目標,所以,數據質量管理中,人、流程、技術三方面缺一不可。
要實現數據質量提升,還必須要做到指標的可量化,通過量化指標來實現質量可控。從技術層面講,要從以下六個角度去考量數據質量,也稱為數據質量的矩陣,包括:完備性、符合性、一致性、準確性、唯一性以及完整性。
構建數據質量處理流程
數據質量處理的流程是怎樣的呢?我們把數據質量的處理分為兩大部分:一是面向數據質量的分析過程,二是針對分析結果進行增強的過程。先要識別和量化數據質量,然后定義數據質量和目標,接下來就要交給相關部門設計質量提升的流程,其后就是實現質量提升的流程,并交付高質量數據給業務人員使用。同時,在整個環境中,還需要有相關的一些監控和對比來評估是否達成了目標,決定是否需要進行新一輪的數據質量提升。這是一個周而復始、螺旋上升的過程。
通過Informatica構建數據質量管理主要分為四大部分。首先是Analyze and Profiling,通過對現有數據的詳細分析、描繪,來確定怎樣進行處理和標準化;第二是StandardiseCleanse,標準化和清洗更容易讓計算機識別,比如數據可以通過什么樣的格式進行限制和約束,那些信息可以通過數據質點或者參考數據進行相關的標準化;第三是Match,標準化后要進行相關的數據匹配,解決數據重復性問題,保證數據的唯一性;第四是Consolidate,將重復的數據進行合并,最后運用到不同的系統當中。需要注意的是,在整個過程中我們都需要進行相關的監控。
現在,很多企業的數據中心,不僅僅只是一個最單純的面向數據倉庫的數據存儲中心,而是既能支持業務運營,又支持系統分析,還可進行系統間的整合。在數據中心建設中,數據質量需要從數據源端就開始進行治理,包括PowerCenter、Data Quality、MDM Hub、Informatica9在內的Informatica的數據質量工具,可以將所有的業務邏輯和規則變成相關的一些服務,由各個業務前端、各個業務處理過程中,對數據處理服務進行調用,進行相關的數據校驗驗和數據清洗,保證數據產生過程中的數據質量,減少事后數據處理的難度和投入。
總的來說,數據質量管理是一個綜合的治理過程,不能通過簡單的技術手段得意解決,需要從企業的高度加以重視,才能為數據中心建設提供高質量的數據保證。