精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:數據中心技術專區 → 正文

數據中心優化是信息中心建設的重點

責任編輯:vivian |來源:企業網D1Net  2012-01-06 09:02:02 本文摘自:CENT

記者日前在采訪Informatica中國區首席產品顧問但彬先生時,他告訴記者:“Informatica既可以在數據架構層面提供信息傳遞、B2B數據交換、企業數據集成等一系列的基礎架構解決方案,同時也可為行業提供數據質量管理、主數據管理和復雜事件處理等方案,來支撐數據中心實現可信、交互、權威的信息資產管理,達成企業的業務目標,這也是信息中心建設的一個重點。”

六個角度考量數據質量

但彬表示,數據質量管理在數據中心建設中是一個完整的生態鏈。數據質量會受到供應商、生產員工、工藝流程以及內部客戶和外部系統的影響,同時,從應用和軟件角度方面講,數據提供者、軟件開發集成、質量管控手段等也都會影響到企業數據質量的整體狀況。

從數據質量整體框架和方法論上講,首先要確定目標,然后要清楚用什么人,通過怎樣的流程,采用什么樣的技術支撐來達成目標,人、流程、技術三方面缺一不可。而設定最終目標前最重要的一件事是要了解現狀,找出企業最關注哪些數據質量,通過記分卡對現有數據進行評估,同時還要進行實時的監控,從流程、時間角度發現數據的變化。

數據質量理論上不是完全可控的,要實現數據質量提升,必須要做到指標的可量化,通過量化指標實現質量可控。從技術層面講,要從以下六個角度去考量數據質量,也稱為數據質量的矩陣。包括:完備性(信息是否填寫全面)、符合性(數據是否按照標準格式進行填寫)、一致性(是指內部沖突,同一系統中兩個字段間相關推導和約束關系)、準確性(包括數據是否真實有效和數據是否及時更新)、唯一性(多條信息是否相同和一致)以及完整性(從約束性和參考性方面考慮,數據相互間的參照關系)。當然,企業是要根據自己的業務需求來確定考量數據質量的指標或體系,并不一定必須局限在這六個方面。

數據質量提升并非一蹴而就

一個完整的數據質量管理,是人、流程和技術的完美配合,這樣才能達到企業數據質量管理的目標。那數據質量處理的流程是怎樣的呢?但彬告訴記者,對于數據質量的處理,一般把它分成兩大部分,一是面向數據質量的分析過程;二是針對分析結果進行增強的過程。

先要識別和量化數據質量,然后定義數據質量和目標,接下來就要交給相關部門設計質量提升的流程,其后就是實現質量提升的流程,把原有低質量數據變成高質量數據,并交付給業務人員使用。同時,在整個環境中,還需要有相關的一些監控和對比來評估是否達成了目標,決定是否需要進行新一輪的數據質量提升。這是一個周而復始、螺旋上升的過程,并不是一蹴而就,一次就可以解決全部問題。

Informatica四部分構建數據質量管理

通過Informatica構建數據質量管理主要分為四大部分。

首先是AnalyzeandPrfiling,通過對現有數據的詳細分析、描繪,來確定怎樣對他進行處理和標準化;第二是StandardiseCleanse,標準化和清洗更容易讓計算機識別,比如數據可以通過什么樣的格式進行限制和約束,進行怎樣的交驗就可以達到數據標準的要求,那些信息可以通過數據質點或者參考數據進行相關的標準化;第三是Match,標準化后要進行相關的數據匹配,解決數據重復性問題,并保證數據的唯一性;第四是Consolidate,將重復數據進行合并,最后運用到不同的系統當中。需要注意的是,在整個過程中我們都需要進行相關的監控。在我們日常數據中心的建設中,也可以對這幾部分進行相關的延展或者精簡來完善我們數據質量管理的過程。

但彬重點介紹了Informatica最具特色的模糊匹配技術。在數據匹配關聯中,可以用到不同的匹配關聯技術,比如在實現數據的精確快速匹配時,可以先對數據進行預覽,查看兩個數據的可匹配度是多少,再進行分析來確定這種匹配是否適用于此種數據的匹配過程。如沒有精確匹配來保證匹配率,則可以采用模糊比對的方法。為此他舉了這樣一個例子(參見下圖),在人名比對中,可能因為拼音簡、繁體輸入問題造成一個人的數據信息不一致,王門騫的“騫”,一個是簡體,一個是繁體,這兩個字在計算機編碼中并不一致,所以他們的名稱并不相等,這時就要對他的名字進行模糊匹配打分,通過結果來分辯數據的可信度。比如設定0.8以上的數據為可信,那第二條王門騫就是可信的同一個人,而第二條陳東壁被判定不是同一個人。

結束語

現在,很多企業的數據中心,不僅僅只是一個最單純的面向數據倉庫的數據存儲中心,而是既能支持業務運營,又支持系統分析,還可進行系統間的整合。在數據中心建設中,數據質量需要從數據源端就開始進行治理,治理到業務交互的各個過程。包括PowerCenter、DataQuality、MDMHub、Informatica9在內的Informatica的數據質量工具,可以將所有的業務邏輯和規則變成相關的一些服務,由各個業務前端、各個業務處理過程中,對數據服務進行調用,進行相關的數據校驗和數據清洗,這就是Informatica數據質量平臺為企業數據中心建設所提供的支持和幫助。

關鍵字:優化數據清洗數據中心

本文摘自:CENT

x 數據中心優化是信息中心建設的重點 掃一掃
分享本文到朋友圈
當前位置:數據中心技術專區 → 正文

數據中心優化是信息中心建設的重點

責任編輯:vivian |來源:企業網D1Net  2012-01-06 09:02:02 本文摘自:CENT

記者日前在采訪Informatica中國區首席產品顧問但彬先生時,他告訴記者:“Informatica既可以在數據架構層面提供信息傳遞、B2B數據交換、企業數據集成等一系列的基礎架構解決方案,同時也可為行業提供數據質量管理、主數據管理和復雜事件處理等方案,來支撐數據中心實現可信、交互、權威的信息資產管理,達成企業的業務目標,這也是信息中心建設的一個重點。”

六個角度考量數據質量

但彬表示,數據質量管理在數據中心建設中是一個完整的生態鏈。數據質量會受到供應商、生產員工、工藝流程以及內部客戶和外部系統的影響,同時,從應用和軟件角度方面講,數據提供者、軟件開發集成、質量管控手段等也都會影響到企業數據質量的整體狀況。

從數據質量整體框架和方法論上講,首先要確定目標,然后要清楚用什么人,通過怎樣的流程,采用什么樣的技術支撐來達成目標,人、流程、技術三方面缺一不可。而設定最終目標前最重要的一件事是要了解現狀,找出企業最關注哪些數據質量,通過記分卡對現有數據進行評估,同時還要進行實時的監控,從流程、時間角度發現數據的變化。

數據質量理論上不是完全可控的,要實現數據質量提升,必須要做到指標的可量化,通過量化指標實現質量可控。從技術層面講,要從以下六個角度去考量數據質量,也稱為數據質量的矩陣。包括:完備性(信息是否填寫全面)、符合性(數據是否按照標準格式進行填寫)、一致性(是指內部沖突,同一系統中兩個字段間相關推導和約束關系)、準確性(包括數據是否真實有效和數據是否及時更新)、唯一性(多條信息是否相同和一致)以及完整性(從約束性和參考性方面考慮,數據相互間的參照關系)。當然,企業是要根據自己的業務需求來確定考量數據質量的指標或體系,并不一定必須局限在這六個方面。

數據質量提升并非一蹴而就

一個完整的數據質量管理,是人、流程和技術的完美配合,這樣才能達到企業數據質量管理的目標。那數據質量處理的流程是怎樣的呢?但彬告訴記者,對于數據質量的處理,一般把它分成兩大部分,一是面向數據質量的分析過程;二是針對分析結果進行增強的過程。

先要識別和量化數據質量,然后定義數據質量和目標,接下來就要交給相關部門設計質量提升的流程,其后就是實現質量提升的流程,把原有低質量數據變成高質量數據,并交付給業務人員使用。同時,在整個環境中,還需要有相關的一些監控和對比來評估是否達成了目標,決定是否需要進行新一輪的數據質量提升。這是一個周而復始、螺旋上升的過程,并不是一蹴而就,一次就可以解決全部問題。

Informatica四部分構建數據質量管理

通過Informatica構建數據質量管理主要分為四大部分。

首先是AnalyzeandPrfiling,通過對現有數據的詳細分析、描繪,來確定怎樣對他進行處理和標準化;第二是StandardiseCleanse,標準化和清洗更容易讓計算機識別,比如數據可以通過什么樣的格式進行限制和約束,進行怎樣的交驗就可以達到數據標準的要求,那些信息可以通過數據質點或者參考數據進行相關的標準化;第三是Match,標準化后要進行相關的數據匹配,解決數據重復性問題,并保證數據的唯一性;第四是Consolidate,將重復數據進行合并,最后運用到不同的系統當中。需要注意的是,在整個過程中我們都需要進行相關的監控。在我們日常數據中心的建設中,也可以對這幾部分進行相關的延展或者精簡來完善我們數據質量管理的過程。

但彬重點介紹了Informatica最具特色的模糊匹配技術。在數據匹配關聯中,可以用到不同的匹配關聯技術,比如在實現數據的精確快速匹配時,可以先對數據進行預覽,查看兩個數據的可匹配度是多少,再進行分析來確定這種匹配是否適用于此種數據的匹配過程。如沒有精確匹配來保證匹配率,則可以采用模糊比對的方法。為此他舉了這樣一個例子(參見下圖),在人名比對中,可能因為拼音簡、繁體輸入問題造成一個人的數據信息不一致,王門騫的“騫”,一個是簡體,一個是繁體,這兩個字在計算機編碼中并不一致,所以他們的名稱并不相等,這時就要對他的名字進行模糊匹配打分,通過結果來分辯數據的可信度。比如設定0.8以上的數據為可信,那第二條王門騫就是可信的同一個人,而第二條陳東壁被判定不是同一個人。

結束語

現在,很多企業的數據中心,不僅僅只是一個最單純的面向數據倉庫的數據存儲中心,而是既能支持業務運營,又支持系統分析,還可進行系統間的整合。在數據中心建設中,數據質量需要從數據源端就開始進行治理,治理到業務交互的各個過程。包括PowerCenter、DataQuality、MDMHub、Informatica9在內的Informatica的數據質量工具,可以將所有的業務邏輯和規則變成相關的一些服務,由各個業務前端、各個業務處理過程中,對數據服務進行調用,進行相關的數據校驗和數據清洗,這就是Informatica數據質量平臺為企業數據中心建設所提供的支持和幫助。

關鍵字:優化數據清洗數據中心

本文摘自:CENT

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 沈阳市| 连城县| 柳江县| 阿克| 涞源县| 正安县| 南涧| 石屏县| 岑巩县| 许昌县| 泰州市| 淳安县| 西安市| 建瓯市| 商南县| 密云县| 泰兴市| 威信县| 东乡| 平潭县| 桂东县| 德格县| 白沙| 兴隆县| 怀安县| 吉木萨尔县| 青川县| 岑溪市| 霸州市| 丰台区| 临夏县| 永州市| 临城县| 健康| 万宁市| 北辰区| 山西省| 崇文区| 镇沅| 泾川县| 饶平县|