如果沒(méi)有良好的清理和歸檔實(shí)踐,數(shù)據(jù)湖泊可能變得得密而陰暗。下面是一些防止出現(xiàn)這種情況的建議。
大數(shù)據(jù)的四個(gè)V是數(shù)據(jù)的體積,多樣性,速度,準(zhǔn)確性。所有這些都是數(shù)據(jù)架構(gòu)師在制定大數(shù)據(jù)管理策略時(shí)所認(rèn)識(shí)到的重要因素。
但隨著大數(shù)據(jù)量的不斷增長(zhǎng),企業(yè)數(shù)量呈指數(shù)級(jí)增長(zhǎng),他們開(kāi)始陷入停滯甚至擁有有毒的數(shù)據(jù)湖和存儲(chǔ)庫(kù),因?yàn)檫@些數(shù)據(jù)被丟棄并混合到這些數(shù)據(jù)保留池中。在極端的情況下,每個(gè)新的大數(shù)據(jù)位都被簡(jiǎn)單地投入到數(shù)據(jù)保留區(qū)域中,這些數(shù)據(jù)的可視性和從中獲取價(jià)值的能力幾乎是不可能的。數(shù)據(jù)就是這些云數(shù)據(jù)湖泊的“水”,數(shù)據(jù)架構(gòu)師和開(kāi)發(fā)人員發(fā)現(xiàn),以敏捷方式處理數(shù)據(jù)變得越來(lái)越難。
總的來(lái)說(shuō),這些受污染的數(shù)據(jù)湖產(chǎn)生了第五個(gè)V,專(zhuān)家認(rèn)為是添加大數(shù)據(jù)的時(shí)了候:粘度。常用的粘度用于描述液體的厚度。例如,蜂蜜的粘度高于水。
人們可以看到數(shù)據(jù)湖的聯(lián)系開(kāi)始變得越來(lái)越多,因?yàn)閿?shù)據(jù)清理和存檔的實(shí)踐不佳造成的污染。這些數(shù)據(jù)開(kāi)始變得泥濘,并且“凝結(jié)”到無(wú)法再導(dǎo)航的地步。
數(shù)據(jù)架構(gòu)師可以采取以下措施清理這些數(shù)據(jù),以便可以再次使用這些數(shù)據(jù),以及首席信息官將如何幫助他們。
(1)必須建立一個(gè)商業(yè)案例
清理數(shù)據(jù)或找到重新分類(lèi)和恢復(fù)資料的方法是一個(gè)后續(xù)任務(wù),不能立即與營(yíng)業(yè)費(fèi)用減少或收入增加掛鉤。因此,像這樣一個(gè)可以花費(fèi)很多時(shí)間和精力的項(xiàng)目不會(huì)受到IT團(tuán)隊(duì)高管的理解或欣賞。
不過(guò),首席信息官必須將其出售。
其商業(yè)收益是:
·如果數(shù)據(jù)干凈且敏捷,企業(yè)的業(yè)務(wù)分析時(shí)間將會(huì)改善。
·良好的數(shù)據(jù)可以提高監(jiān)管合規(guī)性和治理水平。
·數(shù)據(jù)安全和保管將會(huì)得到改善,因?yàn)橥ㄟ^(guò)整理數(shù)據(jù),企業(yè)還可以查看訪問(wèn)權(quán)限和數(shù)據(jù)存儲(chǔ)安全性指南。
·如果企業(yè)定義數(shù)據(jù)保留規(guī)則并丟棄有助于內(nèi)部或云存儲(chǔ)成本的無(wú)用數(shù)據(jù),則可能會(huì)降低成本。
(2)數(shù)據(jù)架構(gòu)師應(yīng)該考慮建立一系列的的湖泊
單獨(dú)的數(shù)據(jù)湖在按主題區(qū)域組織時(shí)是有幫助的。例如,可能有一個(gè)用于銷(xiāo)售和營(yíng)銷(xiāo)的數(shù)據(jù)湖。第二個(gè)數(shù)據(jù)湖可能被制造和工程使用。第三個(gè)可能是財(cái)務(wù),等等。
當(dāng)需要從這些不同的數(shù)據(jù)源聚合數(shù)據(jù)時(shí),可以通過(guò)從這些原始數(shù)據(jù)湖聚合來(lái)創(chuàng)建單獨(dú)的“構(gòu)建”數(shù)據(jù)池,但需保持原始數(shù)據(jù)湖的完整性。
分布式數(shù)據(jù)架構(gòu)可以通過(guò)設(shè)置多個(gè)數(shù)據(jù)庫(kù)和/或系統(tǒng)分區(qū)在單個(gè)服務(wù)器上完成;或者可以在多臺(tái)服務(wù)器上完成。無(wú)論哪種方式,在原始數(shù)據(jù)主題湖中保留數(shù)據(jù)分離可能會(huì)有更多的處理開(kāi)銷(xiāo),但是這個(gè)值由用戶獲得的數(shù)據(jù)敏捷性和組織所返回。
(3)這些數(shù)據(jù)湖共享的數(shù)據(jù)必須規(guī)范化
如果存在數(shù)據(jù)重疊,數(shù)據(jù)架構(gòu)師必須具有解決問(wèn)題的方法,比如兩個(gè)不同的系統(tǒng),它們描述同一塊數(shù)據(jù),或者包含不同值的數(shù)據(jù)元素。
最后,目標(biāo)是擁有組織良好和管理的干凈數(shù)據(jù)。數(shù)據(jù)的組織,管理和輕松地匯總來(lái)自其他干凈的數(shù)據(jù)湖的數(shù)據(jù),用于跨越多個(gè)主題領(lǐng)域的分析查詢,使用此數(shù)據(jù)的應(yīng)用程序變得更加敏捷,因?yàn)橛脩舨辉贋槠涮峁┠酀舻臄?shù)據(jù)。
最重要的是,用戶已經(jīng)在分析中取得進(jìn)展,因?yàn)槠鋽?shù)據(jù)質(zhì)量不再成為阻礙。