在數(shù)據(jù)資產(chǎn)管理領(lǐng)域,有著許多相似的概念和詞匯。譬如說“數(shù)據(jù)管理”和“數(shù)據(jù)治理”,像孿生兄弟一樣讓人糾結(jié)不已。上周,與一個朋友聊起元數(shù)據(jù)、主數(shù)據(jù)和參考數(shù)據(jù)的關(guān)系是什么。這個話題我們足足聊了二十分鐘。這三個概念我在一開始做數(shù)據(jù)管理相關(guān)工作的時候也糾結(jié)了挺久,于是我根據(jù)聊起來的內(nèi)容稍稍總結(jié)了一下,就有了這篇文章,希望能給讀者減少些許疑惑。
1、假設(shè)場景
我們的假設(shè)場景先是這樣的,現(xiàn)在正在為中國地理協(xié)會設(shè)計一個中國地理信息系統(tǒng)(當然真實的地理信息系統(tǒng)不會是這樣,都說只是假設(shè)一下)。我現(xiàn)在正設(shè)計到“地市”這個對象。常說“千言萬語不及一圖”,這三者的關(guān)系咱們先上圖。
2、元數(shù)據(jù)--數(shù)據(jù)的數(shù)據(jù)
元數(shù)據(jù)(meta-data)是描述企業(yè)數(shù)據(jù)的相關(guān)數(shù)據(jù),指在IT系統(tǒng)建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)定義,目標定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù),包括對數(shù)據(jù)的業(yè)務(wù)、結(jié)構(gòu)、定義、存儲、安全等各方面對數(shù)據(jù)的描述。
例如在假設(shè)場景中,我們設(shè)計了地市表的數(shù)據(jù)模型(如上圖紅色框里面表示),地市表這個實體的數(shù)據(jù)模型如何進行定義正是元數(shù)據(jù)所關(guān)心的范疇。
元數(shù)據(jù)可以說是企業(yè)的數(shù)據(jù)地圖,它直接反映了企業(yè)中有什么樣的數(shù)據(jù),數(shù)據(jù)是如何存放的,例如,數(shù)據(jù)結(jié)構(gòu)是什么樣子,數(shù)據(jù)與業(yè)務(wù)之間的關(guān)系是怎么樣,數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系是怎么樣,數(shù)據(jù)有什么樣的安全需求,數(shù)據(jù)有什么樣的存儲需求。
針對元數(shù)據(jù)的管理,對于傳統(tǒng)企業(yè)數(shù)據(jù)而言是非常重要的一項管理挑戰(zhàn)。因為傳統(tǒng)企業(yè)技術(shù)和管理觀念上有所缺失,從而導致了許多問題。因此,我們在進行許多傳統(tǒng)企業(yè)數(shù)據(jù)治理或者數(shù)據(jù)管理項目,也就是元數(shù)據(jù)管理方面時,常常會先從數(shù)據(jù)模型梳理著手。
3、主數(shù)據(jù)--企業(yè)黃金數(shù)據(jù)記錄
主數(shù)據(jù)(main data)主要是指經(jīng)實例化的企業(yè)關(guān)鍵數(shù)據(jù)。
還是回到我們的假設(shè)場景,我們在上面設(shè)計完成數(shù)據(jù)模型設(shè)計的“城市表”中填寫了相應的城市數(shù)據(jù),例如,北京、上海、廣州、南寧等等。這些在城市表中填充的數(shù)據(jù),正是組織中國地理協(xié)會的主數(shù)據(jù),因為這些數(shù)據(jù)是中國地理協(xié)會這個組織的關(guān)鍵業(yè)務(wù)實體,它為組織的業(yè)務(wù)開展提供關(guān)聯(lián)環(huán)境,而且它可能在企業(yè)業(yè)務(wù)開展過程中被反復引用。針對這些核心關(guān)鍵數(shù)據(jù),組織和企業(yè)無論從數(shù)據(jù)的質(zhì)量、一致性、可用性、管理規(guī)范等方面都應該有著最嚴格的數(shù)據(jù)要求。
那么一般而言,以下涉及企業(yè)經(jīng)營的人、財、物的數(shù)據(jù)最有可能納入企業(yè)主數(shù)據(jù)管理的范疇,例如
企業(yè)產(chǎn)品及其相關(guān)信息:包括企業(yè)相關(guān)產(chǎn)品、服務(wù)、版本、價格、標準操作等等
企業(yè)財務(wù)信息:包括業(yè)務(wù)、預算、利潤、合同、財務(wù)科目等等
企業(yè)相關(guān)利益相關(guān)者:如客戶、供應商、合作伙伴、競爭對手等
企業(yè)組織架構(gòu):如員工、部門等
可見,主數(shù)據(jù)就是企業(yè)被不同運營場合反復引用關(guān)鍵的狀態(tài)數(shù)據(jù),它需要在企業(yè)范圍內(nèi)保持高度一致。它可以隨著企業(yè)的經(jīng)營活動而改變,例如,客戶的增加,組織架構(gòu)的調(diào)整,產(chǎn)品下線等;但是,主數(shù)據(jù)的變化頻率應該是較低的。所以,企業(yè)運營過程產(chǎn)生過程數(shù)據(jù),如生產(chǎn)過程產(chǎn)生各種如訂購記錄、消費記錄等,一般不會納入主數(shù)據(jù)的范圍。當然,在不同行業(yè),不同企業(yè)對主數(shù)據(jù)有不同的看法和做法,正如我們與國內(nèi)大型航空企業(yè)的實施相關(guān)數(shù)據(jù)項目時,也在為航班動態(tài)是不是主數(shù)據(jù)而糾結(jié)不已。
因此,有鑒于主數(shù)據(jù)對于企業(yè)的重要性,企業(yè)和組織需要對其主數(shù)據(jù)進行有效的管理:包括理解主數(shù)據(jù)應用需求,識別主數(shù)據(jù)來源及源頭,梳理主數(shù)據(jù)上下游關(guān)系,數(shù)據(jù)整合和發(fā)布,提升主數(shù)據(jù)的數(shù)據(jù)質(zhì)量等。
4、參考數(shù)據(jù)--數(shù)據(jù)的字典
在本文引用的假設(shè)案例中,我們將會注意到剛才填寫的地市這類數(shù)據(jù)有些列,如省份、城市類型等。如果沒有缺少上下文的環(huán)境,我們是無法理解其具體含義,這時候我們往往引入?yún)⒖紨?shù)據(jù)(reference data)加以解釋和理解,如下圖紅色標注所示。
參考數(shù)據(jù)是增加數(shù)據(jù)可讀性、可維護性以及后續(xù)應用的重要數(shù)據(jù)。例如,你看到“性別”的這個字段,很可能是1代表男性、2代表女性。在許多企業(yè)中有這樣的約定俗成,而更多的參考數(shù)據(jù)可能記錄在開發(fā)人員和運營人員的大腦當中。但問題是一旦這些人離開,您系統(tǒng)里面的數(shù)據(jù)就成了一堆沒有注釋的天書。
大家可能覺得,這所謂參考數(shù)據(jù)不就是數(shù)據(jù)字典嗎?對,我們在很多系統(tǒng)里面都會有這樣和那樣的數(shù)據(jù)字典。但是正是由于這些數(shù)據(jù)字典局僅限于個別系統(tǒng)而沒有統(tǒng)一標準,從一個側(cè)面間接造就了大量的數(shù)據(jù)孤島。企業(yè)為了進行更有效率的數(shù)據(jù)整合、數(shù)據(jù)共享和數(shù)據(jù)分析應用,開始嘗試對參考數(shù)據(jù)進行企業(yè)或者部門層面的整合和管理,利用參考數(shù)據(jù)集記錄系統(tǒng)嘗試為范圍內(nèi)的IT系統(tǒng)中的數(shù)據(jù)庫提供統(tǒng)一的參考數(shù)據(jù)。
5、小結(jié)
主數(shù)據(jù)則是真實的企業(yè)業(yè)務(wù)數(shù)據(jù),是企業(yè)的關(guān)鍵業(yè)務(wù)數(shù)據(jù)。
參考數(shù)據(jù)則是對數(shù)據(jù)的解釋,針對一些數(shù)據(jù)范圍和取值的數(shù)據(jù)解釋,讓人們?nèi)菀鬃x取相關(guān)的數(shù)據(jù)。
元數(shù)據(jù)是對數(shù)據(jù)的描述,用于描述企業(yè)數(shù)據(jù)的所有信息和數(shù)據(jù),如結(jié)構(gòu)、關(guān)系、安全需求等,除增加數(shù)據(jù)可讀性外,也是后續(xù)數(shù)據(jù)管理的基礎(chǔ)。
一般而言,企業(yè)中這三類數(shù)據(jù)與其它數(shù)據(jù)的數(shù)據(jù)量、質(zhì)量需求,更新頻率、數(shù)據(jù)生命周期的關(guān)系大致如下圖:
作者簡介:
梁銘圖,DAMS架構(gòu)師精英群專家,新炬網(wǎng)絡(luò)首席架構(gòu)師。
擁有十年以上數(shù)據(jù)庫運維、數(shù)據(jù)分析、數(shù)據(jù)庫設(shè)計以及系統(tǒng)規(guī)劃建設(shè)經(jīng)驗。
長期為國內(nèi)電信運營商的大型IT系統(tǒng)進行系統(tǒng)軟件維、數(shù)據(jù)架構(gòu)規(guī)劃、設(shè)計和實施以及大型IT系統(tǒng)數(shù)據(jù)建模工作,在數(shù)據(jù)架構(gòu)管理以及數(shù)據(jù)資產(chǎn)管理方面有著深入的研究。