說到大數據就不得不說一下主數據,曾經公司在無數個會議上被多次提到,一群參會的吃瓜群眾根本不知所云。今天我們就來分享一下我對主數據的理解。
什么是主數據?
主數據就是描述企業核心業務實體的數據,比如客戶、合作伙伴、員工、產品、物料單、賬戶等;主數據并不是歷史日志數據也不是交易流水記錄。一個企業的主數據包含多方面的,從不同方面分析都可以找到大量描述業務數據,例如航線、航班是對于航空業務重要的主數據。既然主數據如此重要,那么要怎樣才能高效的維護管理主數據呢?
為什么要有主數據管理?
很多公司在成長過程中,由于前期對信息系統規劃不到位,導致公司信息起步初期,各信息系統獨立建設更像是一根一根樹立的煙囪。各系統維護各自數據,各系統擁有自己的一套業務數據。初期各自為政的建設,各掃門前雪休管他人瓦上霜的做法往往是最高效的。但前期的順暢埋藏了隱患,同一類數據在不同系統中被維護多次。比如,公司的人力系統維護了“張三”的個人信息顯示年方二八,然而排班系統同樣也維護了“張三”個人信息卻年齡卻是27,如果我們要使用“張三”的年紀,我們疑惑了該以哪一個數據作為準確的呢?可能在建設初期規定所有員工必須在人力系統中進行統一維護,然而在實際操作中由于各種原因不太可能嚴格按照約定操作,就會導致業務系統存在的人員信息人力系統并沒維護或維護數據沖突。
主數據的出現就可以解決這個問題,主數據管理主要管理什么呢?如果將公司的人力數據統一通過主數據進行管理,只有主數據是提供統一的、準確的、唯一的且具有權威的人力主數據那么就可以解決這些問題。
主數據四大工作特征,數據集成、數據共享、數據質量把控、數據治理。主數據管理就像將有一個無形的吸管插入不同的系統中,不停的從各個系統中吸取最核心的數據,然后將這些數據進行整合、過濾和清洗,形成準確統一的數據。并以服務的方式把數據分發給全企業范圍內需要使用這些數據的操作型應用和分析型應用。
主數據系統為全公司所有應用的系統提供核心數據,那么主數據管理平臺在性能上就不能影響業務操作,如果將公司所有的運行日志放入到主數據管理平臺勢必會大大降低效率(該放入數據倉庫中),并且日志記錄數據不屬于主數據管理的范疇。主數據應該存放支撐應用的基礎數據,比如客戶關系系統中可以納入主數據管理平臺的數據是客戶信息數據,因為可以為其他系統提供統一的、完整的、準確的、具有權威性的客戶信息數據。相比訂單數據就不能納入主數據,訂單就是銷售的流水信息,應該放入數據倉庫中,供數據挖掘分析應用。
主數據管理的解決方案
主數據框架是一個企業級的系統,意味著需要納入管理的系統比較多,會橫跨許多部門。企業級的主數據架構將以明確方向來規劃系統的建設。下面介紹主數據架構中的主要內容。
大企業存在的壁壘較多,在推行主數據的時,系統調研、部門協調,會消耗非常多的時間,這也是實際中不好控制的部分。
1.數據采集,通過ETL或者其他同步程序將業務系統中的預定義的主數據進行抓取,為主數據平臺不斷的提供新鮮血液。
2.數據清洗,清洗抓取的數據,形成統一的、完整的、高質量的主數據,就如同腎臟過濾掉血液中的垃圾廢物一樣。
3.標準服務,主數據對外提供標準一致的數據服務,將這些數據分發到各個應用系統中,如同血管將腎臟過濾過后的血液統一分發到不同的器官中一樣。
4.系統監控,監控數據從采集到清洗再到分發整個過程中的情況,就如同人體的健康狀態一樣不斷的反饋身體器官的各種問題。
5.WEB頁面,通過WEB頁面進行管理和使用,界面美觀,用戶體驗友好,就如同長得漂亮的女孩,走到哪里都受歡迎。
小結
主數據是大數據建設中的一個重點內容,過往很多人對于大數據還是一頭霧水,通過了解前一張的元數據和本節內容,我相信你應該對大數據建設有了一個比較清晰的了解了,我們將分享一些大數據的熱門技術。