精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

數(shù)據(jù)湖的四個(gè)最佳實(shí)踐

責(zé)任編輯:editor005

作者:趙立京

2016-08-23 14:36:34

摘自:51CTO

數(shù)據(jù)湖聽(tīng)起來(lái)很簡(jiǎn)單:把數(shù)據(jù)或信息匯集到一個(gè)結(jié)合處理速度和存儲(chǔ)空間的大數(shù)據(jù)系統(tǒng)――Hadoop集群或內(nèi)存解決方案,那樣業(yè)務(wù)部門(mén)就能訪(fǎng)問(wèn)數(shù)據(jù),獲取新的洞察力。

數(shù)據(jù)湖聽(tīng)起來(lái)很簡(jiǎn)單:把數(shù)據(jù)或信息匯集到一個(gè)結(jié)合處理速度和存儲(chǔ)空間的大數(shù)據(jù)系統(tǒng)――Hadoop集群或內(nèi)存解決方案,那樣業(yè)務(wù)部門(mén)就能訪(fǎng)問(wèn)數(shù)據(jù),獲取新的洞察力。不過(guò),與IT行業(yè)的許多技術(shù)一樣,現(xiàn)實(shí)比夢(mèng)想困難得多。

Pentaho公司的創(chuàng)始人兼首席技術(shù)官詹姆斯·狄克遜(James Dixon)發(fā)明了這個(gè)術(shù)語(yǔ),他表示,其中一方面是由于對(duì)數(shù)據(jù)湖應(yīng)該是什么存在著誤解。他從來(lái)就沒(méi)有打算用數(shù)據(jù)湖來(lái)描述從所有企業(yè)應(yīng)用程序獲取數(shù)據(jù)的巨大的Hadoop存儲(chǔ)庫(kù)。

數(shù)據(jù)湖是什么東東?

狄克遜說(shuō):“有人問(wèn)數(shù)據(jù)湖是什么時(shí),我告訴他們,它就是你以前在磁帶上擁有的東西。拿來(lái)你在磁帶上的東西,把它倒入到數(shù)據(jù)湖,然后開(kāi)始探索該數(shù)據(jù)。我們的看法是,只把需要的數(shù)據(jù)倒入到Hadoop;如果你想結(jié)合來(lái)自數(shù)據(jù)湖的信息和客戶(hù)關(guān)系管理(CRM)系統(tǒng)里面的信息,我們就進(jìn)行連接,只有需要時(shí)才執(zhí)行這番數(shù)據(jù)結(jié)合。”

盡管狄克森的初衷并非如此,但這個(gè)術(shù)語(yǔ)具有更廣泛的含義,而且有著更大的希望。人們開(kāi)始將大數(shù)據(jù)湖視作通過(guò)把所有數(shù)據(jù)放入到一個(gè)超快、易于訪(fǎng)問(wèn)的存儲(chǔ)庫(kù),解決集成難題的一種方法。

實(shí)際上,存儲(chǔ)庫(kù)反而變成了一個(gè)緩慢、僵化的數(shù)據(jù)沼澤。大數(shù)據(jù)需要特殊的專(zhuān)長(zhǎng)來(lái)分析數(shù)據(jù)。使用原始數(shù)據(jù)得出的結(jié)論在數(shù)據(jù)質(zhì)量和治理方面發(fā)出了危險(xiǎn)信號(hào)。

尼克·霍德克(Nick Heudecker)是Gartner的IT領(lǐng)導(dǎo)者數(shù)據(jù)和分析部門(mén)的數(shù)據(jù)管理研究人員,他說(shuō):“每個(gè)人都想把數(shù)據(jù)湖視作IT行業(yè)的銀彈。之前有沒(méi)有這樣的一種銀彈?我還在等待。我認(rèn)為,一旦你跨過(guò)了那個(gè)發(fā)現(xiàn)階段,就需要做更多工作。就數(shù)據(jù)湖而言,那同一基礎(chǔ)設(shè)施有所幫助,但是一旦你使用該數(shù)據(jù)來(lái)回答你生成的問(wèn)題,就需要更深入地探究專(zhuān)業(yè)信息管理世界。”

所以鑒于數(shù)據(jù)湖現(xiàn)狀,你如何利用它們、為貴企業(yè)帶來(lái)最大優(yōu)勢(shì)?專(zhuān)家們表示,數(shù)據(jù)湖有四個(gè)關(guān)鍵的最佳實(shí)踐:

·了解數(shù)據(jù)湖的使用場(chǎng)合

·別忘了現(xiàn)有的數(shù)據(jù)管理最佳實(shí)踐,比如確立強(qiáng)大的數(shù)據(jù)管理

·知道數(shù)據(jù)湖的業(yè)務(wù)理由,因?yàn)檫@將決定合適的架構(gòu)

·要注意元數(shù)據(jù)

1. 了解數(shù)據(jù)湖的使用場(chǎng)合

想建立一個(gè)成功的數(shù)據(jù)湖,企業(yè)需要擯棄這種想法:數(shù)據(jù)湖讓你可以在一個(gè)地方收集所有數(shù)據(jù)。數(shù)據(jù)湖并非取代企業(yè)數(shù)據(jù)管理系統(tǒng)和實(shí)踐――至少?gòu)拇髷?shù)據(jù)的現(xiàn)狀來(lái)看不是這樣,明白這一點(diǎn)同樣很重要。

MapR公司的數(shù)據(jù)和應(yīng)用程序高級(jí)副總裁杰克·諾里斯(Jack Norris)說(shuō):“企業(yè)組織仍在談?wù)摂?shù)據(jù)湖,但它們也認(rèn)識(shí)到,不是所有數(shù)據(jù)湖都一樣。某些數(shù)量的功能是你所需要的,或者我們聽(tīng)人談起過(guò)數(shù)據(jù)沼澤,很難讓數(shù)據(jù)流進(jìn)流出,數(shù)據(jù)就停滯在那里。”

考慮到數(shù)據(jù)湖沒(méi)有按計(jì)劃那樣奏效,它仍然切實(shí)可行嗎?專(zhuān)家們表示,是的,前提是你得了解其局限性。

霍德克說(shuō):“在我看來(lái),它就是數(shù)據(jù)科學(xué)沙盒。你在這里處理數(shù)據(jù),試圖找到新的洞察力。一旦你找到了那新的洞察力,任由數(shù)據(jù)處于原始格式合理嗎?我會(huì)認(rèn)為,這并不合理,因?yàn)槟悻F(xiàn)在需要優(yōu)化數(shù)據(jù)。你需要確保數(shù)據(jù)得到治理,確保數(shù)據(jù)在語(yǔ)義上一致,并滿(mǎn)足業(yè)務(wù)使用者的要求,所以在我看來(lái),數(shù)據(jù)湖好比實(shí)驗(yàn)室。你可以用它處理其他事情,不過(guò)對(duì)我來(lái)說(shuō),我在建議客戶(hù)時(shí),我會(huì)盡量建議他們這么考慮其數(shù)據(jù)湖。”

這不像聽(tīng)起來(lái)那么有局限性。比如說(shuō),霍德克特別指出,企業(yè)使用數(shù)據(jù)湖從部署的物聯(lián)網(wǎng)獲取洞察力。TDWI Research的數(shù)據(jù)管理研究主任菲利普·拉索姆(Philip Russom)表示,數(shù)據(jù)湖身兼多職,比如為敏捷數(shù)據(jù)倉(cāng)庫(kù)和報(bào)告提供更大的靈活性。數(shù)據(jù)湖還經(jīng)常為Hadoop集群和數(shù)據(jù)集成充當(dāng)數(shù)據(jù)著陸區(qū)和集結(jié)區(qū)。

拉索姆在電子郵件中說(shuō):“在極端狀態(tài)下,數(shù)據(jù)湖直接從數(shù)據(jù)源攝取原始狀態(tài)的數(shù)據(jù),不經(jīng)過(guò)任何清理、標(biāo)準(zhǔn)化、重新建模和改動(dòng)等操作。處理原始的、未改動(dòng)的詳細(xì)源數(shù)據(jù)的目的在于,新的、獨(dú)特的分析需求出現(xiàn)時(shí),可以在運(yùn)行時(shí)實(shí)時(shí)改動(dòng)數(shù)據(jù)。這假設(shè),一旦你改變數(shù)據(jù)用于特定的用途,輸出數(shù)據(jù)對(duì)其他用途而言就有點(diǎn)局限性。”

2. 運(yùn)用現(xiàn)有的數(shù)據(jù)管理最佳實(shí)踐

拉索姆補(bǔ)充道,可以跨越這些比較簡(jiǎn)單的使用場(chǎng)合,但那需要的不僅僅是將數(shù)據(jù)倒入到數(shù)據(jù)湖。

他在郵件中寫(xiě)道:“現(xiàn)在有些用戶(hù)多年來(lái)一直在使用某種形式的數(shù)據(jù)湖(甚至是在新的Hadoop上),我們可以從它們成熟的運(yùn)用中學(xué)到經(jīng)驗(yàn)。用戶(hù)已明白,如果要求數(shù)據(jù)湖的一些部分(很少是整個(gè)數(shù)據(jù)湖)采用某種結(jié)構(gòu),就能夠從數(shù)據(jù)湖得到更大的用途(即商業(yè)價(jià)值)。”

這也意味著,企業(yè)組織在分析數(shù)據(jù)湖存儲(chǔ)系統(tǒng)或與企業(yè)應(yīng)用程序集成時(shí),不能忽視過(guò)去二三十年好不容易獲取的數(shù)據(jù)經(jīng)驗(yàn)教訓(xùn)。審計(jì)跟蹤記錄、數(shù)據(jù)完整性、數(shù)據(jù)管理、數(shù)據(jù)治理和數(shù)據(jù)所有權(quán),這些都仍然適用。

3. 知道數(shù)據(jù)湖的業(yè)務(wù)理由

技術(shù)專(zhuān)家們喜歡說(shuō),IT項(xiàng)目應(yīng)該始于業(yè)務(wù),但在這里,這是確定如何構(gòu)建數(shù)據(jù)湖的關(guān)鍵的第一步。業(yè)務(wù)理由并不是僅僅影響架構(gòu),而是決定架構(gòu)。

比如說(shuō),狄克遜特別指出,該公司采訪(fǎng)Hadoop集群的早期采用者后,80%到90%的使用場(chǎng)合針對(duì)結(jié)構(gòu)化數(shù)據(jù),而不是非結(jié)構(gòu)化數(shù)據(jù)。想確定你的數(shù)據(jù)是否可以建立在傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)、Hadoop集群或另一種NoSQL替代數(shù)據(jù)庫(kù),關(guān)鍵在于知道自己的業(yè)務(wù)使用場(chǎng)合將是什么,它需要哪種類(lèi)型的數(shù)據(jù)。據(jù)霍德克聲稱(chēng),比如說(shuō),關(guān)系數(shù)據(jù)庫(kù)就適合物聯(lián)網(wǎng)傳感器數(shù)據(jù),這意味著你可以節(jié)省招聘NoSQL人才的成本。

業(yè)務(wù)理由還將決定你要不要使用任何NoSQL解決方案上的某種SQL支持。如果數(shù)據(jù)將被轉(zhuǎn)移到企業(yè)分析工具,那么你要考慮如何支持?jǐn)?shù)據(jù)最佳實(shí)踐。

諾里斯說(shuō):“重點(diǎn)絕不僅僅是數(shù)據(jù),而是始終關(guān)于你要做什么工作。使用場(chǎng)合是什么,你可以運(yùn)用什么應(yīng)用程序來(lái)處理該數(shù)據(jù)以便從中受益。”

4. 支持元數(shù)據(jù)

最后,要注意元數(shù)據(jù)。元數(shù)據(jù)一再出現(xiàn),它是確保數(shù)據(jù)湖是可行戰(zhàn)略而不是數(shù)據(jù)墓地的關(guān)鍵。這里的好消息是,大數(shù)據(jù)和分析廠(chǎng)商在推出將元數(shù)據(jù)添加到數(shù)據(jù)湖及其他大數(shù)據(jù)存儲(chǔ)系統(tǒng)的新工具。比如說(shuō),元數(shù)據(jù)注入就是Pentaho Business Analytics 6.1的一個(gè)關(guān)鍵部分。

狄克遜說(shuō):“現(xiàn)階段,人們認(rèn)識(shí)到大數(shù)據(jù)確實(shí)帶來(lái)了其他數(shù)據(jù)存儲(chǔ)系統(tǒng)無(wú)法帶來(lái)的東西?,F(xiàn)在它的表現(xiàn)要像其他企業(yè)級(jí)應(yīng)用程序?,F(xiàn)在它需要安全,需要監(jiān)控、日志和審計(jì),它需要元數(shù)據(jù),變得更穩(wěn)健、更實(shí)用、更人性化。我認(rèn)為,這是它變得更像是企業(yè)IT的標(biāo)準(zhǔn)工具的結(jié)果。”

霍德克表示,元數(shù)據(jù)也是Gartner發(fā)現(xiàn)的一個(gè)新趨勢(shì)的關(guān)鍵:對(duì)數(shù)據(jù)進(jìn)行“聯(lián)系,而不是收集”。相比將數(shù)據(jù)轉(zhuǎn)移到越來(lái)越大的集群或數(shù)據(jù)倉(cāng)庫(kù),讓數(shù)據(jù)待在原地來(lái)得更省錢(qián)、更容易、更高效。

他說(shuō):“最大的挑戰(zhàn)是元數(shù)據(jù)和元數(shù)據(jù)管理,這也是企業(yè)應(yīng)該最關(guān)注的方面。如果你非常清楚地了解數(shù)據(jù)的元數(shù)據(jù),就能解決你在忙于工作時(shí)可能會(huì)延遲或延期的許多事情。所以,只要擁有良好的元數(shù)據(jù),你就能搞定治理,就能搞定安全,就能搞定任何數(shù)據(jù)質(zhì)量問(wèn)題。”

“只要你專(zhuān)注于此,那么就能建立堅(jiān)實(shí)的基礎(chǔ),然后在需求不斷變化,你對(duì)使用場(chǎng)合的了解變得更明確時(shí),不斷夯實(shí)這個(gè)基礎(chǔ)。”

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 揭东县| 绵阳市| 宁安市| 乌拉特后旗| 开远市| 大同县| 芜湖县| 铅山县| 泰宁县| 金山区| 文安县| 益阳市| 深泽县| 新密市| 陵水| 崇仁县| 长兴县| 手机| 三门县| 来安县| 湖北省| 遵义市| 萨嘎县| 铜川市| 健康| 游戏| 格尔木市| 涞水县| 昭苏县| 罗平县| 海口市| 宁化县| 巩留县| 湘阴县| 桐乡市| 盐源县| 额敏县| 巴彦淖尔市| 炉霍县| 禄丰县| 屯门区|