精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

數(shù)據(jù)湖:大數(shù)據(jù)游泳的安全方式?

責任編輯:jackye

作者:Harris編譯

2016-09-02 09:41:27

摘自:機房360

摘要:在這篇文章中,專家想澄清數(shù)據(jù)池是什么,組織是否會考慮使用數(shù)據(jù)湖,以及他們使用數(shù)據(jù)湖所面臨的挑戰(zhàn),并概述了一些支持數(shù)據(jù)湖軟件工具的發(fā)展。由于認識到缺乏治理和管理工具,一些機構(gòu)毫不猶豫地采用數(shù)據(jù)湖,而其他公司也在采用。

摘要:在這篇文章中,專家想澄清數(shù)據(jù)池是什么,組織是否會考慮使用數(shù)據(jù)湖,以及他們使用數(shù)據(jù)湖所面臨的挑戰(zhàn),并概述了一些支持數(shù)據(jù)湖軟件工具的發(fā)展。

自從Pentaho公司首席技術官詹姆斯·狄克遜創(chuàng)造了“數(shù)據(jù)湖”這個詞,至今已有五年多的時間。他當時提出這個建議,“如果你認為數(shù)據(jù)集市是一個經(jīng)過清洗,方便消費的瓶裝水商店的‘數(shù)據(jù)湖’,那么數(shù)據(jù)湖則是一個更自然狀態(tài)的水體。”這個比喻很簡單。但根據(jù)專家的經(jīng)驗,許多最終用戶對這個的概念還有很多困惑。在這篇文章中,專家想澄清數(shù)據(jù)池是什么,組織是否會考慮使用數(shù)據(jù)湖,以及他們使用數(shù)據(jù)湖所面臨的挑戰(zhàn),并概述了一些支持數(shù)據(jù)湖軟件工具的發(fā)展。

數(shù)據(jù)湖提供了一個處理大數(shù)據(jù)的方法。數(shù)據(jù)湖結(jié)合任何格式和任何類型的數(shù)據(jù)的海量存儲能力,以及改造和分析數(shù)據(jù)處理能力。通常,數(shù)據(jù)湖使用Hadoop技術實現(xiàn)。來自不同來源的詳細原始的數(shù)據(jù)被加載到一個單一的綜合信息庫,可以看到提供給用戶分析的任何數(shù)據(jù)。要理解為什么數(shù)據(jù)湖已成為流行的這種方法與企業(yè)數(shù)據(jù)倉庫的對比是很有幫助的(EDW)。在某些方面,一個企業(yè)級數(shù)據(jù)倉庫就類似于一個數(shù)據(jù)湖,可以作為整個組織的信息的集中存儲庫。然而,數(shù)據(jù)加載到一個企業(yè)級數(shù)據(jù)倉庫一般概括為結(jié)構(gòu)化數(shù)據(jù)。工程數(shù)據(jù)倉庫系統(tǒng)是典型的基于關系數(shù)據(jù)庫的技術,其目的是為了處理結(jié)構(gòu)化信息。雖然已經(jīng)在關系數(shù)據(jù)庫的可擴展性有了一些進步,他們一般沒有Hadoop那樣的可擴展性。由于這些技術是不可擴展的,存儲到組織中的所有原始數(shù)據(jù),采用它是不實際的。因此,有必要總結(jié)。與之形成對比的是,一個數(shù)據(jù)湖包含了組織中產(chǎn)生的最詳盡的數(shù)據(jù)。所述的數(shù)據(jù)可能是結(jié)構(gòu)化的信息,如銷售交易數(shù)據(jù),或非結(jié)構(gòu)化信息,例如在客戶服務交互中交換的電子郵件。

Hadoop經(jīng)常使用數(shù)據(jù)湖

Hadoop可以存儲和管理大量后續(xù)分析處理的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。Hadoop的出現(xiàn)使其存儲大容量信息更加實惠和可行,并且組織開始收集和存儲整個組織不同系統(tǒng)的原始細節(jié)。Hadoop也成為非結(jié)構(gòu)化信息的存儲庫,如社交媒體和諸如日志文件的半結(jié)構(gòu)化數(shù)據(jù)。事實上,人們的基準研究顯示,社會化媒體數(shù)據(jù)是第二個最重要的來源,也在大數(shù)據(jù)分析中使用的外部信息。

除了處理更大的卷和更多種類的信息以外,數(shù)據(jù)湖能夠更快地獲得信息。由于數(shù)據(jù)是以原始形式聚集,不需要預處理。因此,一旦產(chǎn)生和收集,其信息可以被立即添加到數(shù)據(jù)湖。這種方法已經(jīng)引起了一些爭議,許多行業(yè)分析師甚至廠商都在擔心數(shù)據(jù)湖會變成數(shù)據(jù)沼澤。一般情況下,圍繞數(shù)據(jù)源缺乏治理的數(shù)據(jù)成為數(shù)據(jù)湖的焦點,這是一個適當?shù)脑掝}。這些數(shù)據(jù)集應該像組織內(nèi)的任何其他信息資產(chǎn)一樣被管理。所面臨的挑戰(zhàn)是,大多數(shù)的治理的工具和技術已經(jīng)為關系數(shù)據(jù)庫和EDWs開發(fā)。從本質(zhì)上說,數(shù)據(jù)湖泊所使用的大數(shù)據(jù)技術已經(jīng)超過了自己所需,而沒有提供為企業(yè)部署所需的所有功能。

另外,也許圍繞術語有一些輕微的爭議。專家提出這個問題,這樣,無論供應商選擇的術語如何,人們可以識別數(shù)據(jù)湖和意識到的挑戰(zhàn)。Cloudera的企業(yè)數(shù)據(jù)中心使用的術語來表示與數(shù)據(jù)湖本質(zhì)上相同的概念。Hortonworks也包含數(shù)據(jù)湖的術語。IBM公司承認數(shù)據(jù)湖的價值以及其在這個崗位的挑戰(zhàn),但IBM公司的大數(shù)據(jù)傳播者吉姆·庫比拉斯說,質(zhì)疑最近在LinkedIn所提到的職位的術語,“數(shù)據(jù)湖”術語并不是IBM網(wǎng)站上的突出特色。

盡管面臨著爭議和挑戰(zhàn),數(shù)據(jù)湖繼續(xù)增長受到廣泛歡迎。它們提供了數(shù)據(jù)科學的重要功能。首先,它們包含進行預測分析的必要的詳細數(shù)據(jù)。其次,他們允許非結(jié)構(gòu)化數(shù)據(jù)的有效訪問,如社交媒體或客戶交互等文字。對企業(yè)來說,該信息可建立客戶和他們行為的一個更完整的輪廓。數(shù)據(jù)湖也比傳統(tǒng)的EDW可用架構(gòu)提供更快的數(shù)據(jù)。而通過云計算的基準研究數(shù)據(jù)和分析顯示,五分之一(21%)的組織實時了他們的數(shù)據(jù)。該研究還表明,這些組織通常對整合他們的數(shù)據(jù)都比較滿意,并在他們的結(jié)果方面更加自信。誠然,數(shù)據(jù)湖包含原始信息,它可能需要更多的分析和操作,因為數(shù)據(jù)還沒有清洗掉,但時間就是金錢,速度更快的訪問往往會導致新的收入機會。在參與基準研究預測分析的一半?yún)⑴c者表示,他們的分析已經(jīng)創(chuàng)造了新的收入機會。

由于認識到缺乏治理和管理工具,一些機構(gòu)毫不猶豫地采用數(shù)據(jù)湖,而其他公司也在采用。在這個領域的供應商在此期間已經(jīng)顯現(xiàn)出他們的能力。有些公司,例如Informatica公司為了數(shù)據(jù)湖泊獲得世界EDW數(shù)據(jù)治理能力。專家最新發(fā)布了一篇關于Informatica的大數(shù)據(jù)功能,稱之為智能數(shù)據(jù)湖。其他廠商正在提高自己的EDW能力。InformationBuilders公司和Teradata公司在今年春天都公布了數(shù)據(jù)湖。此外,新興的供應商特別專注于數(shù)據(jù)湖泊。PodiumData表示,其提供了一個“企業(yè)數(shù)據(jù)湖管理平臺。”

那么采用數(shù)據(jù)湖安全嗎?好了,就像你不知道如何游泳就不應該跳進湖中一樣,如果你沒有管理其信息的計劃就不應該采用數(shù)據(jù)湖。數(shù)據(jù)湖可以充分利用大數(shù)據(jù),并創(chuàng)建新的收入機會。而組織采用合適的工具和培訓之后,那么數(shù)據(jù)湖可能值得一試。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 嘉义市| 全椒县| 共和县| 南澳县| 蓬溪县| 白河县| 新晃| 禹城市| 平定县| 胶南市| 堆龙德庆县| 郑州市| 陆丰市| 鄢陵县| 青阳县| 彰武县| 博野县| 疏附县| 桓仁| 辉县市| 连山| 绥芬河市| 竹北市| 诸城市| 大荔县| 大兴区| 连城县| 茶陵县| 葵青区| 精河县| 子洲县| 沁源县| 庆安县| 阜宁县| 藁城市| 余庆县| 扬中市| 青川县| 恭城| 庄河市| 四会市|