精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

如何將大數據集成到數據倉庫

責任編輯:editor005

作者:Lockwood Lyon

2015-09-07 14:29:04

摘自:TechTarget中國

現在,隨著越來越多的用戶獲得大數據一體機存儲和訪問路徑查詢的經驗,新交付的一體機出現了性能調優的選項。解決這個問題的最簡單方法是在數據倉庫ETL過程中添加一步,即當數據加載數據庫后立即加載到一體機中。

利用大數據可以在大型商店的相關客戶數據上進行快速高級分析,以發現新的客戶關系,使我們更好地了解客戶需求,優化價格、提供更好的產品和服務,并最終獲得更高的利潤。

這些分析所提供解決方案的質量不僅取決于被分析的大量原始數據,還和這些數據與企業數據倉庫的集成度有關。例如,大數據應用程序可能包含所有客戶購買產生詳細的交易信息;然而,數據倉庫僅包含實體標識(產品和服務名稱)、摘要和聚合類別如地理(哪個區域的哪個商店),產品類別,銷售地區,管理層次結構、定價數據,客戶類別和概要文件等等。

在多數情況下,大數據應用的成功與其如何集成到您的企業數據倉庫息息相關。本文將介紹幾種方法,以便快速有效地完成這項工作。

大數據一體機

在今天的商業信息技術系統中,越來越多的數據被收集并存儲。為了能夠捕獲、存儲和分析這些數據,大多數企業轉而尋求專門的硬件和軟件解決方案。一個常見的解決方案是使用一個專用的硬件數據存儲(有時稱為一體機)加上配套的商業信息分析軟件。一個例子就是IBM DB2 AnalyticsAccelerator (IDAA)。

配置一體機以適應大容量。一體機之所以能夠執行高速查詢,是因為它們具有專用的高容量磁盤存儲陣列,允許大規模并行處理。這一過程只有在被引用的所有表都存儲在一體機中時才能正常工作。如果你的大數據應用程序使用了多用戶社區發布的跨許多商業實體和關系的復雜查詢,你應該接受所有數據表都要存儲在一體機中這一事實。

注意,您的數據倉庫表也應該存在于你當前的數據庫管理系統(DBMS)中;這樣做為了使你的當前操作和常用倉庫查詢可以更快地在DBMS中執行。

限制對一體機的初始訪問。大多數大數據應用程序被安裝來支持特定的用例。這些用例目的是使分析能夠有助于立即降低成本或提高利潤。最好是限制這些用戶訪問一體機,尤其是在他們使用標準的商業智能(BI)工具來構造查詢時。為大數據所定制BI工具允許用戶以圖形化的形式組織SQL語句,而后在后臺執行實際的SQL查詢。這允許軟件設計師通過正確的SQL語法來使用一體機。

另一個限制一體機只能被個別用戶訪問的原因與性能調優有關。最初交付給客戶的大數據一體機并不具有性能調優的能力。這是因為人們認為那些先進的軟件和硬件一體機速度極快,性能調優沒有存在的必要。現在,隨著越來越多的用戶獲得大數據一體機存儲和訪問路徑查詢的經驗,新交付的一體機出現了性能調優的選項。限制一體機訪問可以使你的一體機運維團隊在一個相對穩定的環境中進行一體機的性能調優。

您需要確定如何處理被更改的數據。為了使一體機返回有用的信息,數據必須是最新的。這里所說的數據包括數據倉庫數據,這些數據我們也建議您實例化到一體機中去。然而,由于大多數數據倉庫每天都執行提取-轉換-裝載(ETL)流程,你現在必須協調這些數據,以便其順利加載到一體機中。通常ETL最后一步執行數據庫應用程序,將轉換后的數據加載到數據倉庫中。現在,ETL有一個額外的步驟,將數據加載到一體機中。沒有將這些新數據加載到一體機中是十分危險的,你的查詢操作訪問數據倉庫中的表,會返回一個查詢結果,而當查詢操作訪問的是一體機表數據時,返回的又是另一個結果,兩個結果無法保持一致性。

解決這個問題的最簡單方法是在數據倉庫ETL過程中添加一步,即當數據加載數據庫后立即加載到一體機中。然而,會有很多數據加載選項。假如ETL過程是在表中追加記錄,而不是覆蓋整個表會怎樣?一體機加載過程通常有一個“加載被更改數據”的選項,該選項允許一體機只加載那些最近被更改過的數據。這種方法也適用于分區表,一次只有一個分區被加載。

讓你的數據倉庫做好準備

升級數據倉庫體系結構。企業數據倉庫已經成為商業智能查詢的平臺。數據倉庫業務分析師查詢數據倉庫數據以供分析;所以倉庫已經包含類別和維度表用于構造子集,合計和聚合。這樣的類別數據通常存儲在產品類別、客戶類型、地理區域等維度表中。

考慮到大數據的用例(BI查詢隨著大數據的實現已經被定義為高回報的),檢查你的倉庫,以確保倉庫中存在所有必須的類別和維度表,且表中數據正確。另外你可能需要進一步檢查以確定原始源系統數據是正確和最新的。檢查你的企業數據字典和元數據以確認數據元素定義的正確性和相關性。

加快ETL處理過程,特別是數據倉庫的數據加載過程。隨著查詢數量和復雜性的增加,BI用戶將需求更多地使用大數據存儲庫。然而,由于大數據需要與數據倉庫集成,這自然轉化為更快的數據處理要求。分析整個數據轉換鏈,包括源數據的采集、數據清理和轉換,以及最終數據倉庫裝載過程。你應該考慮升級相關網絡和服務器來應對數據量的增加。對舊的、過時的倉庫數據進行分析,清洗或歸檔不再使用的數據。審查數據加載程序,為速度提升做好準備,這包括并行表加載過程,以及制定相應分區方案來允許原有數據被查詢的同時加載新的數據。

為新崗位培訓員工。大數據的應用程序和企業數據倉庫完成集成后將會共同成長。這將改變數據倉庫運維人員的工作內容。倉庫分析師必須擴大視野,并意識到現在的數據存儲在一個或多個大數據的應用程序中。他們必須去熟悉任何新的BI分析軟件,以幫助用戶實現報表和查詢。

隨著大數據消費的擴張,性能將成為一個問題。企業急需數據科學家,這些科學家了解數據以及數據庫管理系統和一體機,并能對其進行監視和性能優化。最后,這些專家在數據來源和操作系統領域具備淵博的學識,這將幫助企業確定哪些數據應該被添加到當前數據倉庫和一體機中。

總結

很明顯,實現大數據應用程序需要大量的硬件、軟件和人力資源。為了確保此應用程序和數據倉庫的集成,你要考慮以下的幾條建議:

配置高容量的一體機,并計劃將你的整個數據倉庫部署其中;限制一體機的使用人數,讓分析師熟悉數據和典型的BI查詢;審查當前計劃,清除過時數據;加速ETL過程,特別是數據倉庫的數據加載過程;最后,讓你的員工做好準備,以勝任新的大數據環境下的工作。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 海南省| 宜宾市| 兴安县| 苏尼特左旗| 北碚区| 手机| 临洮县| 和田县| 民勤县| 朔州市| 建德市| 新乐市| 灵璧县| 水城县| 石狮市| 稷山县| 安吉县| 师宗县| 南陵县| 建阳市| 墨玉县| 顺平县| 光山县| 汉源县| 宝鸡市| 大姚县| 伊吾县| 黑水县| 广昌县| 宁河县| 龙里县| 那坡县| 开原市| 泾川县| 黄石市| 中山市| 安国市| 城口县| 红河县| 仲巴县| 遵义市|