精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

如何保持大數(shù)據(jù)湖清晰并可導(dǎo)航

責(zé)任編輯:editor005

作者:Harris編譯

2017-07-17 15:02:20

摘自:機(jī)房360

摘要:如果沒(méi)有良好的清理和歸檔實(shí)踐,數(shù)據(jù)湖泊可能變得得密而陰暗。當(dāng)需要從這些不同的數(shù)據(jù)源聚合數(shù)據(jù)時(shí),可以通過(guò)從這些原始數(shù)據(jù)湖聚合來(lái)創(chuàng)建單獨(dú)的“構(gòu)建”數(shù)據(jù)池,但需保持原始數(shù)據(jù)湖的完整性。

如果沒(méi)有良好的清理和歸檔實(shí)踐,數(shù)據(jù)湖泊可能變得得密而陰暗。下面是一些防止出現(xiàn)這種情況的建議。

大數(shù)據(jù)的四個(gè)V是數(shù)據(jù)的體積,多樣性,速度,準(zhǔn)確性。所有這些都是數(shù)據(jù)架構(gòu)師在制定大數(shù)據(jù)管理策略時(shí)所認(rèn)識(shí)到的重要因素。

但隨著大數(shù)據(jù)量的不斷增長(zhǎng),企業(yè)數(shù)量呈指數(shù)級(jí)增長(zhǎng),他們開(kāi)始陷入停滯甚至擁有有毒的數(shù)據(jù)湖和存儲(chǔ)庫(kù),因?yàn)檫@些數(shù)據(jù)被丟棄并混合到這些數(shù)據(jù)保留池中。在極端的情況下,每個(gè)新的大數(shù)據(jù)位都被簡(jiǎn)單地投入到數(shù)據(jù)保留區(qū)域中,這些數(shù)據(jù)的可視性和從中獲取價(jià)值的能力幾乎是不可能的。數(shù)據(jù)就是這些云數(shù)據(jù)湖泊的“水”,數(shù)據(jù)架構(gòu)師和開(kāi)發(fā)人員發(fā)現(xiàn),以敏捷方式處理數(shù)據(jù)變得越來(lái)越難。

總的來(lái)說(shuō),這些受污染的數(shù)據(jù)湖產(chǎn)生了第五個(gè)V,專(zhuān)家認(rèn)為是添加大數(shù)據(jù)的時(shí)了候:粘度。常用的粘度用于描述液體的厚度。例如,蜂蜜的粘度高于水。

人們可以看到數(shù)據(jù)湖的聯(lián)系開(kāi)始變得越來(lái)越多,因?yàn)閿?shù)據(jù)清理和存檔的實(shí)踐不佳造成的污染。這些數(shù)據(jù)開(kāi)始變得泥濘,并且“凝結(jié)”到無(wú)法再導(dǎo)航的地步。

數(shù)據(jù)架構(gòu)師可以采取以下措施清理這些數(shù)據(jù),以便可以再次使用這些數(shù)據(jù),以及首席信息官將如何幫助他們。

(1)必須建立一個(gè)商業(yè)案例

清理數(shù)據(jù)或找到重新分類(lèi)和恢復(fù)資料的方法是一個(gè)后續(xù)任務(wù),不能立即與營(yíng)業(yè)費(fèi)用減少或收入增加掛鉤。因此,像這樣一個(gè)可以花費(fèi)很多時(shí)間和精力的項(xiàng)目不會(huì)受到IT團(tuán)隊(duì)高管的理解或欣賞。

不過(guò),首席信息官必須將其出售。

其商業(yè)收益是:

·如果數(shù)據(jù)干凈且敏捷,企業(yè)的業(yè)務(wù)分析時(shí)間將會(huì)改善。

·良好的數(shù)據(jù)可以提高監(jiān)管合規(guī)性和治理水平。

·數(shù)據(jù)安全和保管將會(huì)得到改善,因?yàn)橥ㄟ^(guò)整理數(shù)據(jù),企業(yè)還可以查看訪問(wèn)權(quán)限和數(shù)據(jù)存儲(chǔ)安全性指南。

·如果企業(yè)定義數(shù)據(jù)保留規(guī)則并丟棄有助于內(nèi)部或云存儲(chǔ)成本的無(wú)用數(shù)據(jù),則可能會(huì)降低成本。

(2)數(shù)據(jù)架構(gòu)師應(yīng)該考慮建立一系列的的湖泊

單獨(dú)的數(shù)據(jù)湖在按主題區(qū)域組織時(shí)是有幫助的。例如,可能有一個(gè)用于銷(xiāo)售和營(yíng)銷(xiāo)的數(shù)據(jù)湖。第二個(gè)數(shù)據(jù)湖可能被制造和工程使用。第三個(gè)可能是財(cái)務(wù),等等。

當(dāng)需要從這些不同的數(shù)據(jù)源聚合數(shù)據(jù)時(shí),可以通過(guò)從這些原始數(shù)據(jù)湖聚合來(lái)創(chuàng)建單獨(dú)的“構(gòu)建”數(shù)據(jù)池,但需保持原始數(shù)據(jù)湖的完整性。

分布式數(shù)據(jù)架構(gòu)可以通過(guò)設(shè)置多個(gè)數(shù)據(jù)庫(kù)和/或系統(tǒng)分區(qū)在單個(gè)服務(wù)器上完成;或者可以在多臺(tái)服務(wù)器上完成。無(wú)論哪種方式,在原始數(shù)據(jù)主題湖中保留數(shù)據(jù)分離可能會(huì)有更多的處理開(kāi)銷(xiāo),但是這個(gè)值由用戶獲得的數(shù)據(jù)敏捷性和組織所返回。

(3)這些數(shù)據(jù)湖共享的數(shù)據(jù)必須規(guī)范化

如果存在數(shù)據(jù)重疊,數(shù)據(jù)架構(gòu)師必須具有解決問(wèn)題的方法,比如兩個(gè)不同的系統(tǒng),它們描述同一塊數(shù)據(jù),或者包含不同值的數(shù)據(jù)元素。

最后,目標(biāo)是擁有組織良好和管理的干凈數(shù)據(jù)。數(shù)據(jù)的組織,管理和輕松地匯總來(lái)自其他干凈的數(shù)據(jù)湖的數(shù)據(jù),用于跨越多個(gè)主題領(lǐng)域的分析查詢,使用此數(shù)據(jù)的應(yīng)用程序變得更加敏捷,因?yàn)橛脩舨辉贋槠涮峁┠酀舻臄?shù)據(jù)。

最重要的是,用戶已經(jīng)在分析中取得進(jìn)展,因?yàn)槠鋽?shù)據(jù)質(zhì)量不再成為阻礙。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 岱山县| 宁都县| 凌海市| 灵川县| 兴文县| 福鼎市| 犍为县| 阳西县| 来宾市| 遂宁市| 玉门市| 宜州市| 鹤壁市| 乌恰县| 普格县| 固安县| 当涂县| 东莞市| 喀什市| 密山市| 岳西县| 静海县| 漳州市| 珠海市| 大足县| 灵璧县| 扬州市| 齐齐哈尔市| 图木舒克市| 邢台市| 错那县| 安庆市| 游戏| 扎鲁特旗| 奉化市| 中牟县| 益阳市| 钟祥市| 彰化市| 东兰县| 德保县|