精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數(shù)據(jù)存儲到企業(yè)數(shù)據(jù)倉庫中能否實現(xiàn)?

責(zé)任編輯:editor004

2014-01-24 17:16:15

摘自:TechTarget中國

01月24日: 隨著我們可以訪問的數(shù)據(jù)越來越多,企業(yè)已經(jīng)開始將大數(shù)據(jù)存儲到企業(yè)數(shù)據(jù)倉庫(EDW)中。除了電力和冷卻這些標(biāo)準(zhǔn)問題,在部署這樣一個設(shè)備之前,IT人員必須考慮多個架構(gòu)方面的問題。

01月24日 : 隨著我們可以訪問的數(shù)據(jù)越來越多,企業(yè)已經(jīng)開始將大數(shù)據(jù)存儲到企業(yè)數(shù)據(jù)倉庫(EDW)中。它要求數(shù)據(jù)庫管理員(DBA)和相關(guān)支持人員對數(shù)據(jù)倉庫架構(gòu)進(jìn)行重新設(shè)計。

使用高級分析工具來對業(yè)務(wù)數(shù)據(jù)進(jìn)行分析是很常見的,特別是對于有很多面向客戶系統(tǒng)的大型企業(yè)。隨著我們可以訪問的數(shù)據(jù)越來越多,企業(yè)已經(jīng)開始將大數(shù)據(jù)存儲到企業(yè)數(shù)據(jù)倉庫(EDW)中。然而,這些大數(shù)據(jù)部署帶來一系列的問題,它要求數(shù)據(jù)庫管理員(DBA)和相關(guān)支持人員對數(shù)據(jù)倉庫架構(gòu)進(jìn)行重新設(shè)計。

大數(shù)據(jù)時代

在當(dāng)今的商業(yè)化的IT系統(tǒng)中,我們會收集存儲越來越大量的數(shù)據(jù)。同時要能夠獲取、分析這些數(shù)據(jù),大多數(shù)企業(yè)開始轉(zhuǎn)向?qū)S杏布④浖鉀Q方案。這也是一體化設(shè)備開始流行的一個原因,針對特定應(yīng)用場景的硬件數(shù)據(jù)存儲與業(yè)務(wù)分析軟件的耦合度越來越高。比如IBM的DB2 Analytics Accelerator(IDAA),即IBM DB2分析加速器。

這樣的解決方案通常十分昂貴。大數(shù)據(jù)存儲需要擴展磁盤和內(nèi)存陣列,高性能訪問則需要大量CPU資源加上復(fù)雜的數(shù)據(jù)訪問以允許多個進(jìn)程并行訪問數(shù)據(jù)集的各個部分。

在實現(xiàn)這樣一個解決方案之前,企業(yè)需要確認(rèn)并解決以下問題。

基礎(chǔ)設(shè)施需求

就拿IDAA來舉例,它是一個軟硬件解決方案的混合產(chǎn)物。其硬件包括一個大型磁盤存儲陣列并結(jié)合可進(jìn)行大規(guī)模并行處理的軟件。技術(shù)支持人員要指定哪些DB2表要在設(shè)備中加以復(fù)制和存儲,及其刷新機制。然后軟件會與DB2數(shù)據(jù)庫引擎相連接,使得查詢可以訪問設(shè)備中的表備份,這可以提供更快的訪問速度。

除了電力和冷卻這些標(biāo)準(zhǔn)問題,在部署這樣一個設(shè)備之前,IT人員必須考慮多個架構(gòu)方面的問題。

IDAA只會存儲生產(chǎn)系統(tǒng)的數(shù)據(jù)嗎?還是說也可以存儲測試數(shù)據(jù)?換句話說,DBA和業(yè)務(wù)分析人員要怎樣開發(fā)并測試他們的數(shù)據(jù)分析查詢。

究竟需要多少設(shè)備呢?例如,如果在IDAA上正在執(zhí)行的數(shù)據(jù)分析是公司關(guān)鍵任務(wù),那么是不是需要額外的設(shè)備進(jìn)行災(zāi)備?

雖然IDAA可以存儲大量數(shù)據(jù),但只能對訪問設(shè)備中存儲數(shù)據(jù)的查詢進(jìn)行提速。那么系統(tǒng)中要存儲哪些表呢?

特定的用例

超快的數(shù)據(jù)分析聽上去不錯,但很多企業(yè)尚沒有為分析開發(fā)特定的查詢或系統(tǒng)。這就導(dǎo)致了很多時間花費在數(shù)據(jù)加載和查詢測試上,而沒有產(chǎn)生切實的成果。

合理成本會迅速轉(zhuǎn)化為效益嗎?

大多數(shù)業(yè)務(wù)數(shù)據(jù)分析包括以下一系列步驟:

業(yè)務(wù)分析人員審查報表,查詢以及其他數(shù)據(jù)并形成基于他們分析的邏輯問題;然后開發(fā)一個或多個查詢用來分析大型數(shù)據(jù)存儲;執(zhí)行查詢;分析人員審查并闡釋結(jié)果。

一體化的解決方案可以顯著減少步驟3的執(zhí)行時間。但是,其他步驟依然存在。例如,假設(shè)以上的每個步驟要耗費一小時,那么總的消耗時間就是四小時。部署一體機可能會將查詢執(zhí)行時間減少為幾分鐘。雖然這是一個非常顯著的時間降低,但是總時間也只縮減為三個小時多一點。

總之,減少查詢執(zhí)行時間肯定是有好處的,但是可能不像之前所認(rèn)為的那樣效果明顯。

業(yè)務(wù)數(shù)據(jù)“消費”群體

大多數(shù)業(yè)務(wù)數(shù)據(jù)“消費者”可分為以下三類:

技術(shù)用戶直接運行查詢。這些用戶會使用SQL針對數(shù)據(jù)表創(chuàng)建查詢,然后使用一個在線SQL執(zhí)行工具來運行查詢并在原始數(shù)據(jù)表格中生成結(jié)果,這樣他們便可以直接觀察或是下載到一個電子表格以供進(jìn)一步分析之用。這些用戶熟悉這些數(shù)據(jù)表,擁有SQL相關(guān)知識,并且會用簡單工具來提煉結(jié)果。復(fù)雜報表分析人員。這些消費者通常會使用一個復(fù)雜的報表工具來顯示數(shù)據(jù)的一個圖形數(shù)據(jù)模型。然后他們會通過拖拽表和字段到一個報表窗口來操縱此模型。此工具接著會創(chuàng)建基于模型和其他參數(shù)的適當(dāng)SQL語句,執(zhí)行此查詢,并顯示結(jié)果。這些用戶熟悉數(shù)據(jù),通常不具備SQL專長,而且需要一些高級查詢和統(tǒng)計報告的技術(shù)。數(shù)據(jù)集市的消費者。這些用戶擁有他們自己的高度專業(yè)化的業(yè)務(wù)數(shù)據(jù)分析軟件。他們會直接從源頭提取業(yè)務(wù)數(shù)據(jù)并將之存儲在一個本地服務(wù)器上。然后他們會使用專門的軟件來分析數(shù)據(jù)

任何一個大數(shù)據(jù)解決方案都必須將這些不同的群體需求考慮進(jìn)來。

部署過程中的問題

在部署一體機的過程中,IT人員通常會遇到一些常見問題。

相互矛盾的問題

如果我們尚未對其進(jìn)行分析那么我們要存儲些什么呢?如果我們還沒有數(shù)據(jù)那么我們要分析什么呢?業(yè)務(wù)并不會完整的理解什么數(shù)據(jù)會是可用的,并且IT支持人員并不了解在一個大數(shù)據(jù)解決方案中什么樣的業(yè)務(wù)數(shù)據(jù)對于整個部署來說是最為有用的。

這兩個問題通常是缺乏特定用例或是IT與業(yè)務(wù)部門間缺乏交流所導(dǎo)致。

批量數(shù)據(jù)加載問題

大多數(shù)一體機支持大數(shù)據(jù)解決方案并能承受超大量的數(shù)據(jù)。最常見的問題之一就是究竟要花多長時間將那些數(shù)據(jù)加載到一體機中?

一旦數(shù)據(jù)被加載,其他批量數(shù)據(jù)問題就出現(xiàn)了:我們要如何才能保持?jǐn)?shù)據(jù)是最新的?我們要如何清除大量過期和無用數(shù)據(jù)?

這些并非新問題。有經(jīng)驗的IT人員一定不會陌生,其中之一便是災(zāi)難恢復(fù)(DR)準(zhǔn)備。如果突發(fā)災(zāi)難(火災(zāi),洪水等)在主站點發(fā)生,那么典型的災(zāi)難恢復(fù)站點就必須在數(shù)小時內(nèi)準(zhǔn)備好,來頂替主站點。對于當(dāng)今大量的業(yè)務(wù)數(shù)據(jù)來說,最為常見的技術(shù)解決方案就是去維護一個在DR站點當(dāng)前業(yè)務(wù)數(shù)據(jù)的完全備份,而此DR站點是通過網(wǎng)絡(luò)連接和軟件將主站數(shù)據(jù)“鏡像”到DR站點的。

有了一個大數(shù)據(jù)解決方案,IT人員就必須找出一種方法通過數(shù)據(jù)鏡像,定期數(shù)據(jù)加載和定期數(shù)據(jù)歸檔工作的組合來讓一體機中的數(shù)據(jù)保持新鮮。

災(zāi)難恢復(fù)問題

大多數(shù)數(shù)據(jù)倉庫是用來進(jìn)行分析和報表之用,并非用來處理客戶事務(wù)之類的業(yè)務(wù)數(shù)據(jù)。一個大數(shù)據(jù)一體機通常會連接到數(shù)據(jù)倉庫,所以這并不是通常所認(rèn)為的在DR站點所需要的東西。但是,在此之前,讓我們來考慮以下場景:

你的公司已經(jīng)部署了大數(shù)據(jù)一體機;業(yè)務(wù)分析人員和用戶開始查詢數(shù)據(jù);很多查詢產(chǎn)生的結(jié)果導(dǎo)致更低的成本和更合適的價格;查詢運行迅速,如此之多的分析人員開始執(zhí)行很多查詢;隨著更多的查詢產(chǎn)生可執(zhí)行結(jié)果,管理方認(rèn)同它們的價值;每周一次性的查詢開始運行;某些查詢成為日常報表;在管理中有價值的日常報表結(jié)果數(shù)量指定大數(shù)據(jù)解決方案并分析為“關(guān)鍵任務(wù)”。

然而,IT人員會突然被告知如果災(zāi)難發(fā)生,大數(shù)據(jù)存儲必須是可用的。

要為企業(yè)中所發(fā)生的這些做好準(zhǔn)備,需要在部署的開始階段審查存儲需求,網(wǎng)絡(luò)容量,硬件能力和容量以及軟件許可需求。要讓這些數(shù)據(jù)在變得關(guān)鍵之前進(jìn)行發(fā)布并使之可用于管理。這會讓你的企業(yè)提前為其需要做好預(yù)算和規(guī)劃。

最初的部署問題

你也許要部署一臺進(jìn)行大數(shù)據(jù)分析的一體機。通常來說,這些數(shù)據(jù)并非在當(dāng)前收集或存儲在數(shù)據(jù)倉庫中,因為這些數(shù)據(jù)太大了。相反,這些數(shù)據(jù)是作為當(dāng)前可操作數(shù)據(jù)的一部分來存儲的。一些例子包括語音響應(yīng)記錄和點擊數(shù)據(jù),在線互動和設(shè)備傳感器數(shù)據(jù)。

這就引出了一個有趣的想法:首個分析會是在原始生產(chǎn)系統(tǒng)數(shù)據(jù)上,而非在數(shù)據(jù)倉庫中。這是一個誘人的想法。你可以擯棄在數(shù)據(jù)倉庫中進(jìn)行獲取,轉(zhuǎn)換,以及存儲大量數(shù)據(jù)所耗費的成本和時間。數(shù)據(jù)可以馬上被訪問,而不用忍受相關(guān)的正常數(shù)據(jù)倉庫的數(shù)據(jù)暫存和加載所帶來的延遲。

然而,直接的生產(chǎn)系統(tǒng)數(shù)據(jù)訪問會產(chǎn)生問題。某些生產(chǎn)數(shù)據(jù)可能是非完整的或是缺失的,亦或是一種不易訪問的形式。某些數(shù)據(jù)可能是無效的,就像一個類似“99-99-9999”的日期數(shù)據(jù),或是一個金額字段包含字母。其他數(shù)據(jù)可能會需要解釋,例如一個代碼字段包含0,A或C。

另一個問題是,大部分的大數(shù)據(jù)分析取決于稱之為維度的跨類型數(shù)據(jù)聚合。例如,客戶訂單數(shù)據(jù)可能會由地理區(qū)域和產(chǎn)品類型加以歸納。這些維度存在于數(shù)據(jù)倉庫的表中。為了成功執(zhí)行這些查詢,它們必須對完全在一體機中的數(shù)據(jù)加以操作。這就意味著數(shù)據(jù)倉庫數(shù)據(jù)必須存在于一體機中為查詢而工作。

總結(jié)

目前大多數(shù)高級分析解決方案都能夠應(yīng)對大數(shù)據(jù)挑戰(zhàn)。高速一體機會通過顯著縮短查詢時間來為業(yè)務(wù)用戶創(chuàng)造價值。但是,最好的架構(gòu)解決方案會要求一體機作為數(shù)據(jù)倉庫的一部分。

將大數(shù)據(jù)一體機整合到一個數(shù)據(jù)倉庫需要充分準(zhǔn)備和深謀遠(yuǎn)慮。DBA和業(yè)務(wù)數(shù)據(jù)客戶必須協(xié)同工作一起確認(rèn)以上實現(xiàn)過程中的問題并來滿足多種業(yè)務(wù)數(shù)據(jù)客戶的需求。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 福建省| 湛江市| 山西省| 龙山县| 富民县| 留坝县| 阳原县| 东至县| 盐城市| 灵丘县| 江油市| 汝南县| 长丰县| 读书| 犍为县| 陆良县| 五台县| 湘阴县| 玛纳斯县| 绩溪县| 鄄城县| 永兴县| 富源县| 保山市| 锦屏县| 南岸区| 金华市| 巴彦淖尔市| 新和县| 柳州市| 江阴市| 宁河县| 陇南市| 竹山县| 隆德县| 呼玛县| 于都县| 海口市| 安徽省| 攀枝花市| 木里|