精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:數(shù)據(jù)中心行業(yè)動態(tài) → 正文

實(shí)施數(shù)據(jù)湖泊之前請先“試水”

責(zé)任編輯:editor005 作者:Wayne Kernochan |來源:企業(yè)網(wǎng)D1Net  2016-07-19 14:29:30 本文摘自:TechTarget中國

現(xiàn)今,數(shù)據(jù)湖泊在IT行業(yè)掀起了波瀾。數(shù)據(jù)湖泊是將數(shù)據(jù)存儲與數(shù)據(jù)管理關(guān)聯(lián),提供關(guān)于數(shù)據(jù)的分析功能——這種功能通常是其他分析系統(tǒng)的獨(dú)立功能,如數(shù)據(jù)倉庫或數(shù)據(jù)集市,作為數(shù)據(jù)梳理流程的一部分。

例如,數(shù)據(jù)倉庫的提取、轉(zhuǎn)化與加載預(yù)處理器將消費(fèi)日志,這些日志記錄了某個系統(tǒng)到達(dá)或插入某“操作數(shù)據(jù)存儲”的時間。

但現(xiàn)今產(chǎn)業(yè)中,數(shù)據(jù)湖泊似乎至少有兩個定義。一是源于存儲公司,認(rèn)為數(shù)據(jù)湖泊是磁盤存儲基礎(chǔ)設(shè)施,用于源數(shù)據(jù)的存儲。另一個,主要由市場驅(qū)動,混合許多通常未混合的數(shù)據(jù)。根據(jù)我的定義,沒有產(chǎn)商在銷售全擴(kuò)展的數(shù)據(jù)湖泊——相反,人們利用Hadoop來混合數(shù)據(jù)并自主研發(fā)的工具來訪問數(shù)據(jù)。

作為初始供應(yīng)商向現(xiàn)實(shí)世界實(shí)驗(yàn)拋出的炒作課題,用戶發(fā)現(xiàn)數(shù)據(jù)中心集市的最佳實(shí)踐并不適用于數(shù)據(jù)湖泊。為避免早期用戶的錯誤,需要專注于數(shù)據(jù)湖泊的溫和實(shí)現(xiàn),而不是超大規(guī)模。

以下是在數(shù)據(jù)湖泊工作中的最佳實(shí)踐。

請記住數(shù)據(jù)湖泊適用于探索

數(shù)據(jù)湖泊實(shí)現(xiàn)應(yīng)該是實(shí)現(xiàn)企業(yè)擴(kuò)展某個已存在分析的探索方式。數(shù)據(jù)湖泊中增加的數(shù)據(jù)類型來大部分來自于實(shí)時數(shù)據(jù)——例如,用戶事務(wù)日志——實(shí)時分析系統(tǒng)一般不會提供長周期的分析功能。大多數(shù)現(xiàn)有的分析工具不足以提供應(yīng)用程序行為的真實(shí)畫像。數(shù)據(jù)倉庫,“純”Hadoop和其他數(shù)據(jù)管理方案可能導(dǎo)致重要數(shù)據(jù)丟失。

大數(shù)據(jù)分析系統(tǒng)提供商Pentaho公司首席技術(shù)官James Dixon在自己的博客上舉了個例子:數(shù)據(jù)倉庫這樣的系統(tǒng)無法獲得用戶在購買流程中的每一步操作,但事務(wù)日志里有。類似購買流程這樣的設(shè)計對某些數(shù)據(jù)架構(gòu)師來說看似簡單,但每步驟都可能有數(shù)分鐘甚至幾小時的滯后。

通過發(fā)現(xiàn)流程中的滯后,用戶可以開始部署數(shù)據(jù)湖泊來繪制用戶畫像、購買相關(guān)的事務(wù)。探索型的分析很重要,也會影響到企業(yè)整體的分析能力,因?yàn)槟壳斑€不清楚在更深入分析客戶日志時間戳后,會不會有什么新發(fā)現(xiàn)。

數(shù)據(jù)集市、數(shù)據(jù)湖泊和數(shù)據(jù)倉庫之間的區(qū)別?

數(shù)據(jù)集市是數(shù)據(jù)倉庫的變體。數(shù)據(jù)倉庫存儲了跨越整個組織、周期較長的數(shù)據(jù)報告與分析。多個數(shù)據(jù)集市大致相當(dāng)于數(shù)據(jù)倉庫,通常服務(wù)于分公司的各自IT環(huán)境中。可以將多個數(shù)據(jù)集市并入一個數(shù)據(jù)倉庫,也可以是松耦合的數(shù)據(jù)集市。

整合是數(shù)據(jù)湖泊實(shí)施的關(guān)鍵

完全整合數(shù)據(jù)湖泊與企業(yè)的其他數(shù)據(jù)架構(gòu)十分重要,包括數(shù)據(jù)治理與主數(shù)據(jù)管理。了解哪些數(shù)據(jù)類型對數(shù)據(jù)倉庫或數(shù)據(jù)集市重要,或者那些原始表單中的數(shù)據(jù)是正確與一致的。實(shí)施數(shù)據(jù)治理實(shí)踐,避免分析有缺陷的數(shù)據(jù)。

數(shù)據(jù)湖泊要看長遠(yuǎn)

數(shù)據(jù)湖泊擁有潛力。但在找不到比這個更好的長期數(shù)據(jù)分析方案,無法獲得更多有價值的信息之前,數(shù)據(jù)湖泊也可能只是個時髦用語。

Dixon關(guān)于時間序列與間距問題分析的數(shù)據(jù)倉庫案例,只是在沒有考慮“壞”數(shù)據(jù)的情況下,通過簡單統(tǒng)計分析告訴我們一些信息。由于數(shù)據(jù)湖泊實(shí)施可能發(fā)現(xiàn)過去分析中隱藏的關(guān)鍵“指數(shù)”,任何企業(yè)都值得一試。從長遠(yuǎn)來看,還是需要實(shí)驗(yàn)與平衡數(shù)據(jù)湖泊與整體信息架構(gòu)之間關(guān)系。

關(guān)鍵字:湖泊數(shù)據(jù)集市Pentaho

本文摘自:TechTarget中國

x 實(shí)施數(shù)據(jù)湖泊之前請先“試水” 掃一掃
分享本文到朋友圈
當(dāng)前位置:數(shù)據(jù)中心行業(yè)動態(tài) → 正文

實(shí)施數(shù)據(jù)湖泊之前請先“試水”

責(zé)任編輯:editor005 作者:Wayne Kernochan |來源:企業(yè)網(wǎng)D1Net  2016-07-19 14:29:30 本文摘自:TechTarget中國

現(xiàn)今,數(shù)據(jù)湖泊在IT行業(yè)掀起了波瀾。數(shù)據(jù)湖泊是將數(shù)據(jù)存儲與數(shù)據(jù)管理關(guān)聯(lián),提供關(guān)于數(shù)據(jù)的分析功能——這種功能通常是其他分析系統(tǒng)的獨(dú)立功能,如數(shù)據(jù)倉庫或數(shù)據(jù)集市,作為數(shù)據(jù)梳理流程的一部分。

例如,數(shù)據(jù)倉庫的提取、轉(zhuǎn)化與加載預(yù)處理器將消費(fèi)日志,這些日志記錄了某個系統(tǒng)到達(dá)或插入某“操作數(shù)據(jù)存儲”的時間。

但現(xiàn)今產(chǎn)業(yè)中,數(shù)據(jù)湖泊似乎至少有兩個定義。一是源于存儲公司,認(rèn)為數(shù)據(jù)湖泊是磁盤存儲基礎(chǔ)設(shè)施,用于源數(shù)據(jù)的存儲。另一個,主要由市場驅(qū)動,混合許多通常未混合的數(shù)據(jù)。根據(jù)我的定義,沒有產(chǎn)商在銷售全擴(kuò)展的數(shù)據(jù)湖泊——相反,人們利用Hadoop來混合數(shù)據(jù)并自主研發(fā)的工具來訪問數(shù)據(jù)。

作為初始供應(yīng)商向現(xiàn)實(shí)世界實(shí)驗(yàn)拋出的炒作課題,用戶發(fā)現(xiàn)數(shù)據(jù)中心集市的最佳實(shí)踐并不適用于數(shù)據(jù)湖泊。為避免早期用戶的錯誤,需要專注于數(shù)據(jù)湖泊的溫和實(shí)現(xiàn),而不是超大規(guī)模。

以下是在數(shù)據(jù)湖泊工作中的最佳實(shí)踐。

請記住數(shù)據(jù)湖泊適用于探索

數(shù)據(jù)湖泊實(shí)現(xiàn)應(yīng)該是實(shí)現(xiàn)企業(yè)擴(kuò)展某個已存在分析的探索方式。數(shù)據(jù)湖泊中增加的數(shù)據(jù)類型來大部分來自于實(shí)時數(shù)據(jù)——例如,用戶事務(wù)日志——實(shí)時分析系統(tǒng)一般不會提供長周期的分析功能。大多數(shù)現(xiàn)有的分析工具不足以提供應(yīng)用程序行為的真實(shí)畫像。數(shù)據(jù)倉庫,“純”Hadoop和其他數(shù)據(jù)管理方案可能導(dǎo)致重要數(shù)據(jù)丟失。

大數(shù)據(jù)分析系統(tǒng)提供商Pentaho公司首席技術(shù)官James Dixon在自己的博客上舉了個例子:數(shù)據(jù)倉庫這樣的系統(tǒng)無法獲得用戶在購買流程中的每一步操作,但事務(wù)日志里有。類似購買流程這樣的設(shè)計對某些數(shù)據(jù)架構(gòu)師來說看似簡單,但每步驟都可能有數(shù)分鐘甚至幾小時的滯后。

通過發(fā)現(xiàn)流程中的滯后,用戶可以開始部署數(shù)據(jù)湖泊來繪制用戶畫像、購買相關(guān)的事務(wù)。探索型的分析很重要,也會影響到企業(yè)整體的分析能力,因?yàn)槟壳斑€不清楚在更深入分析客戶日志時間戳后,會不會有什么新發(fā)現(xiàn)。

數(shù)據(jù)集市、數(shù)據(jù)湖泊和數(shù)據(jù)倉庫之間的區(qū)別?

數(shù)據(jù)集市是數(shù)據(jù)倉庫的變體。數(shù)據(jù)倉庫存儲了跨越整個組織、周期較長的數(shù)據(jù)報告與分析。多個數(shù)據(jù)集市大致相當(dāng)于數(shù)據(jù)倉庫,通常服務(wù)于分公司的各自IT環(huán)境中。可以將多個數(shù)據(jù)集市并入一個數(shù)據(jù)倉庫,也可以是松耦合的數(shù)據(jù)集市。

整合是數(shù)據(jù)湖泊實(shí)施的關(guān)鍵

完全整合數(shù)據(jù)湖泊與企業(yè)的其他數(shù)據(jù)架構(gòu)十分重要,包括數(shù)據(jù)治理與主數(shù)據(jù)管理。了解哪些數(shù)據(jù)類型對數(shù)據(jù)倉庫或數(shù)據(jù)集市重要,或者那些原始表單中的數(shù)據(jù)是正確與一致的。實(shí)施數(shù)據(jù)治理實(shí)踐,避免分析有缺陷的數(shù)據(jù)。

數(shù)據(jù)湖泊要看長遠(yuǎn)

數(shù)據(jù)湖泊擁有潛力。但在找不到比這個更好的長期數(shù)據(jù)分析方案,無法獲得更多有價值的信息之前,數(shù)據(jù)湖泊也可能只是個時髦用語。

Dixon關(guān)于時間序列與間距問題分析的數(shù)據(jù)倉庫案例,只是在沒有考慮“壞”數(shù)據(jù)的情況下,通過簡單統(tǒng)計分析告訴我們一些信息。由于數(shù)據(jù)湖泊實(shí)施可能發(fā)現(xiàn)過去分析中隱藏的關(guān)鍵“指數(shù)”,任何企業(yè)都值得一試。從長遠(yuǎn)來看,還是需要實(shí)驗(yàn)與平衡數(shù)據(jù)湖泊與整體信息架構(gòu)之間關(guān)系。

關(guān)鍵字:湖泊數(shù)據(jù)集市Pentaho

本文摘自:TechTarget中國

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 大兴区| 龙井市| 渭源县| 秦安县| 镶黄旗| 翼城县| 乳山市| 河源市| 邯郸县| 博湖县| 洱源县| 电白县| 松阳县| 随州市| 苍山县| 宣化县| 沅江市| 鞍山市| 宾阳县| 望都县| 乐平市| 什邡市| 和平区| 武宣县| 开鲁县| 孝感市| 旬阳县| 绩溪县| 滕州市| 双峰县| 宝兴县| 儋州市| 隆安县| 丹江口市| 小金县| 宜黄县| 漠河县| 奎屯市| 东至县| 项城市| 贡觉县|