精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

實時大數(shù)據(jù)架構(gòu) 設(shè)計指導(dǎo)

責(zé)任編輯:editor005 |來源:企業(yè)網(wǎng)D1Net  2015-03-05 14:04:52 本文摘自:比特網(wǎng)

大數(shù)據(jù)

企業(yè)數(shù)據(jù)架構(gòu)正在成形,并且對快數(shù)據(jù)的處理與現(xiàn)在所說的大數(shù)據(jù)處理方法是不同的。在本文中,筆者會闡釋企業(yè)數(shù)據(jù)架構(gòu)的設(shè)想,而此架構(gòu)可以讓企業(yè)實現(xiàn)對快速數(shù)據(jù)和大數(shù)據(jù)的整合。

企業(yè)大數(shù)據(jù)架構(gòu)的基礎(chǔ)是Data Lake(數(shù)據(jù)湖),或稱之為數(shù)據(jù)池、數(shù)據(jù)儲備庫或是其他。很明顯,它是企業(yè)用來存放其所有數(shù)據(jù)的場所。此組件并不因為設(shè)計和功能上的原因而顯得獨(dú)特,但是它卻因為要存儲一切內(nèi)容而成為一個有著巨大成本效益的系統(tǒng)。從本質(zhì)上講,它是一個在廉價商用機(jī)器上的分布式文件系統(tǒng)。

可能某項技術(shù)格外吸引眼球,比如說HDFS或是其他技術(shù),但關(guān)鍵在于,這里匯集了所有數(shù)據(jù)。此平臺將會:

1. 存儲要發(fā)送給其他數(shù)據(jù)管理產(chǎn)品的數(shù)據(jù)

2. 支持可以對文件系統(tǒng)數(shù)據(jù)直接執(zhí)行任務(wù)的框架

圍繞在Data Lake周圍的是一些補(bǔ)充技術(shù),它們可以讓人從那些存儲在Data Lake中的數(shù)據(jù)獲取認(rèn)知和價值。它們包括:

BI報表:數(shù)據(jù)倉庫可以出色的執(zhí)行報告任務(wù),并且可以持續(xù)提供此功能。一些數(shù)據(jù)會導(dǎo)出至那些系統(tǒng)并在那里臨時存儲,同時會以混合方式從Data Lake直接訪問其他數(shù)據(jù)。這些數(shù)據(jù)倉庫系統(tǒng)是專門設(shè)計來執(zhí)行復(fù)雜報告分析的,而且它們也做的非常好。

SQL on Hadoop:這里有著很多的創(chuàng)新。這些產(chǎn)品的目的是取代數(shù)據(jù)倉庫。像Hawq和Impala這樣的產(chǎn)品已經(jīng)有所進(jìn)步。但毫無疑問的是,對于這些系統(tǒng)要接近數(shù)據(jù)倉庫的速度和效率還有很長的路要走,尤其那些有列式設(shè)計的系統(tǒng)。SQL-on-Hadoop系統(tǒng)的存在有兩個重要原因:

1) SQL仍是在數(shù)據(jù)上所能取得的最佳方式

2) 進(jìn)行處理并不需要移動大量的數(shù)據(jù)

挖掘分析:這是數(shù)據(jù)科學(xué)家的領(lǐng)域。這些工具為在數(shù)據(jù)中有所發(fā)現(xiàn)提供了某些功能:模式,模糊關(guān)系,統(tǒng)計規(guī)則等等。Mahout和R語言是此類中的流行工具。

MapReduce:通常Hadoop上所有要執(zhí)行的任務(wù)和管理工作都是在MapReduce群組中進(jìn)行的。如今很多的Hadoop用例都包括在使用上述分析工具之前進(jìn)行預(yù)處理和數(shù)據(jù)清洗。這都是這些工具和接口所允許的情況。

企業(yè)應(yīng)用程序的ETL:最后是ETL流程,它會協(xié)助從我們信任的企業(yè)應(yīng)用程序?qū)⑺械倪z留數(shù)據(jù)放入存儲所有內(nèi)容的數(shù)據(jù)池。這些應(yīng)用程序會逐漸適時地遷移至成熟的快速+大數(shù)據(jù)應(yīng)用程序。

好的,我們現(xiàn)在有了這些分析……然后呢?

我們?yōu)楹我茸龇治瞿??很簡單,我們想要?/p>

● 更好的決策

● 更好的個性化

● 更好的檢測

● 更好的交互

應(yīng)用程序要負(fù)責(zé)交互,并且這是在你可以準(zhǔn)確并實時做這些交互時最具價值的改進(jìn)。這就引出了此架構(gòu)的第二部分,在這里我們可以更好的處理快速數(shù)據(jù),加快實時應(yīng)用程序。

首先要注意的是,快速和大是緊耦合的,盡管它們是獨(dú)立的系統(tǒng)。至少在規(guī)模上它們必是如此。數(shù)據(jù)庫系統(tǒng)是設(shè)計來在每秒鐘處理數(shù)以百萬計的事件決策的,這與那些設(shè)計用來保存千萬億字節(jié)數(shù)據(jù)并生成擴(kuò)展報告的系統(tǒng)是截然不同的。

快速數(shù)據(jù)的實質(zhì)就是產(chǎn)生一定數(shù)量的關(guān)鍵需求以最有效地使用它。這些包括的功能有:

● 數(shù)據(jù)種子提取與交互

● 對種子中的每個事件做出決策

● 利用實時分析為快速移動的數(shù)據(jù)提供可視性

● 無縫集成到設(shè)計用來存儲大數(shù)據(jù)的系統(tǒng)中去

● 從大數(shù)據(jù)系統(tǒng)為用戶和應(yīng)用程序快速提供分析結(jié)果和知識,同時關(guān)閉數(shù)據(jù)環(huán)路。

沒有比可操作的數(shù)據(jù)庫更好的滿足這些需求的技術(shù)了。我們過去所面臨的挑戰(zhàn)是,沒有一個可操作的數(shù)據(jù)庫能夠管理這種吞吐量。結(jié)果,就有一些人用權(quán)宜之計來試圖滿足他們的需求,通常是放棄某些功能并且總是增加了復(fù)雜性。

關(guān)鍵字:數(shù)據(jù)清洗模糊關(guān)系

本文摘自:比特網(wǎng)

x 實時大數(shù)據(jù)架構(gòu) 設(shè)計指導(dǎo) 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

實時大數(shù)據(jù)架構(gòu) 設(shè)計指導(dǎo)

責(zé)任編輯:editor005 |來源:企業(yè)網(wǎng)D1Net  2015-03-05 14:04:52 本文摘自:比特網(wǎng)

大數(shù)據(jù)

企業(yè)數(shù)據(jù)架構(gòu)正在成形,并且對快數(shù)據(jù)的處理與現(xiàn)在所說的大數(shù)據(jù)處理方法是不同的。在本文中,筆者會闡釋企業(yè)數(shù)據(jù)架構(gòu)的設(shè)想,而此架構(gòu)可以讓企業(yè)實現(xiàn)對快速數(shù)據(jù)和大數(shù)據(jù)的整合。

企業(yè)大數(shù)據(jù)架構(gòu)的基礎(chǔ)是Data Lake(數(shù)據(jù)湖),或稱之為數(shù)據(jù)池、數(shù)據(jù)儲備庫或是其他。很明顯,它是企業(yè)用來存放其所有數(shù)據(jù)的場所。此組件并不因為設(shè)計和功能上的原因而顯得獨(dú)特,但是它卻因為要存儲一切內(nèi)容而成為一個有著巨大成本效益的系統(tǒng)。從本質(zhì)上講,它是一個在廉價商用機(jī)器上的分布式文件系統(tǒng)。

可能某項技術(shù)格外吸引眼球,比如說HDFS或是其他技術(shù),但關(guān)鍵在于,這里匯集了所有數(shù)據(jù)。此平臺將會:

1. 存儲要發(fā)送給其他數(shù)據(jù)管理產(chǎn)品的數(shù)據(jù)

2. 支持可以對文件系統(tǒng)數(shù)據(jù)直接執(zhí)行任務(wù)的框架

圍繞在Data Lake周圍的是一些補(bǔ)充技術(shù),它們可以讓人從那些存儲在Data Lake中的數(shù)據(jù)獲取認(rèn)知和價值。它們包括:

BI報表:數(shù)據(jù)倉庫可以出色的執(zhí)行報告任務(wù),并且可以持續(xù)提供此功能。一些數(shù)據(jù)會導(dǎo)出至那些系統(tǒng)并在那里臨時存儲,同時會以混合方式從Data Lake直接訪問其他數(shù)據(jù)。這些數(shù)據(jù)倉庫系統(tǒng)是專門設(shè)計來執(zhí)行復(fù)雜報告分析的,而且它們也做的非常好。

SQL on Hadoop:這里有著很多的創(chuàng)新。這些產(chǎn)品的目的是取代數(shù)據(jù)倉庫。像Hawq和Impala這樣的產(chǎn)品已經(jīng)有所進(jìn)步。但毫無疑問的是,對于這些系統(tǒng)要接近數(shù)據(jù)倉庫的速度和效率還有很長的路要走,尤其那些有列式設(shè)計的系統(tǒng)。SQL-on-Hadoop系統(tǒng)的存在有兩個重要原因:

1) SQL仍是在數(shù)據(jù)上所能取得的最佳方式

2) 進(jìn)行處理并不需要移動大量的數(shù)據(jù)

挖掘分析:這是數(shù)據(jù)科學(xué)家的領(lǐng)域。這些工具為在數(shù)據(jù)中有所發(fā)現(xiàn)提供了某些功能:模式,模糊關(guān)系,統(tǒng)計規(guī)則等等。Mahout和R語言是此類中的流行工具。

MapReduce:通常Hadoop上所有要執(zhí)行的任務(wù)和管理工作都是在MapReduce群組中進(jìn)行的。如今很多的Hadoop用例都包括在使用上述分析工具之前進(jìn)行預(yù)處理和數(shù)據(jù)清洗。這都是這些工具和接口所允許的情況。

企業(yè)應(yīng)用程序的ETL:最后是ETL流程,它會協(xié)助從我們信任的企業(yè)應(yīng)用程序?qū)⑺械倪z留數(shù)據(jù)放入存儲所有內(nèi)容的數(shù)據(jù)池。這些應(yīng)用程序會逐漸適時地遷移至成熟的快速+大數(shù)據(jù)應(yīng)用程序。

好的,我們現(xiàn)在有了這些分析……然后呢?

我們?yōu)楹我茸龇治瞿??很簡單,我們想要?/p>

● 更好的決策

● 更好的個性化

● 更好的檢測

● 更好的交互

應(yīng)用程序要負(fù)責(zé)交互,并且這是在你可以準(zhǔn)確并實時做這些交互時最具價值的改進(jìn)。這就引出了此架構(gòu)的第二部分,在這里我們可以更好的處理快速數(shù)據(jù),加快實時應(yīng)用程序。

首先要注意的是,快速和大是緊耦合的,盡管它們是獨(dú)立的系統(tǒng)。至少在規(guī)模上它們必是如此。數(shù)據(jù)庫系統(tǒng)是設(shè)計來在每秒鐘處理數(shù)以百萬計的事件決策的,這與那些設(shè)計用來保存千萬億字節(jié)數(shù)據(jù)并生成擴(kuò)展報告的系統(tǒng)是截然不同的。

快速數(shù)據(jù)的實質(zhì)就是產(chǎn)生一定數(shù)量的關(guān)鍵需求以最有效地使用它。這些包括的功能有:

● 數(shù)據(jù)種子提取與交互

● 對種子中的每個事件做出決策

● 利用實時分析為快速移動的數(shù)據(jù)提供可視性

● 無縫集成到設(shè)計用來存儲大數(shù)據(jù)的系統(tǒng)中去

● 從大數(shù)據(jù)系統(tǒng)為用戶和應(yīng)用程序快速提供分析結(jié)果和知識,同時關(guān)閉數(shù)據(jù)環(huán)路。

沒有比可操作的數(shù)據(jù)庫更好的滿足這些需求的技術(shù)了。我們過去所面臨的挑戰(zhàn)是,沒有一個可操作的數(shù)據(jù)庫能夠管理這種吞吐量。結(jié)果,就有一些人用權(quán)宜之計來試圖滿足他們的需求,通常是放棄某些功能并且總是增加了復(fù)雜性。

關(guān)鍵字:數(shù)據(jù)清洗模糊關(guān)系

本文摘自:比特網(wǎng)

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 永和县| 莱西市| 闽清县| 韩城市| 紫云| 荥阳市| 鄱阳县| 韩城市| 邢台市| 界首市| 金山区| 东辽县| 丰台区| 涿鹿县| 齐齐哈尔市| 大埔区| 双江| 呈贡县| 平塘县| 利川市| 彰武县| 贵德县| 沐川县| 咸丰县| 三台县| 甘谷县| 龙江县| 荆州市| 武冈市| 湄潭县| 巴青县| 邻水| 宣恩县| 青州市| 浙江省| 潞城市| 祁阳县| 卢湾区| 堆龙德庆县| 新干县| 邻水|