當(dāng)前位置：大數(shù)據(jù) → 業(yè)界動態(tài) → 正文

實時大數(shù)據(jù)架構(gòu) 設(shè)計指導(dǎo)

責(zé)任編輯：editor005 |來源：企業(yè)網(wǎng)D1Net 2015-03-05 14:04:52 本文摘自：比特網(wǎng)

大數(shù)據(jù)

企業(yè)數(shù)據(jù)架構(gòu)正在成形，并且對快數(shù)據(jù)的處理與現(xiàn)在所說的大數(shù)據(jù)處理方法是不同的。在本文中，筆者會闡釋企業(yè)數(shù)據(jù)架構(gòu)的設(shè)想，而此架構(gòu)可以讓企業(yè)實現(xiàn)對快速數(shù)據(jù)和大數(shù)據(jù)的整合。

企業(yè)大數(shù)據(jù)架構(gòu)的基礎(chǔ)是Data Lake(數(shù)據(jù)湖)，或稱之為數(shù)據(jù)池、數(shù)據(jù)儲備庫或是其他。很明顯，它是企業(yè)用來存放其所有數(shù)據(jù)的場所。此組件并不因為設(shè)計和功能上的原因而顯得獨(dú)特，但是它卻因為要存儲一切內(nèi)容而成為一個有著巨大成本效益的系統(tǒng)。從本質(zhì)上講，它是一個在廉價商用機(jī)器上的分布式文件系統(tǒng)。

可能某項技術(shù)格外吸引眼球，比如說HDFS或是其他技術(shù)，但關(guān)鍵在于，這里匯集了所有數(shù)據(jù)。此平臺將會：

1. 存儲要發(fā)送給其他數(shù)據(jù)管理產(chǎn)品的數(shù)據(jù)

2. 支持可以對文件系統(tǒng)數(shù)據(jù)直接執(zhí)行任務(wù)的框架

圍繞在Data Lake周圍的是一些補(bǔ)充技術(shù)，它們可以讓人從那些存儲在Data Lake中的數(shù)據(jù)獲取認(rèn)知和價值。它們包括：

BI報表：數(shù)據(jù)倉庫可以出色的執(zhí)行報告任務(wù)，并且可以持續(xù)提供此功能。一些數(shù)據(jù)會導(dǎo)出至那些系統(tǒng)并在那里臨時存儲，同時會以混合方式從Data Lake直接訪問其他數(shù)據(jù)。這些數(shù)據(jù)倉庫系統(tǒng)是專門設(shè)計來執(zhí)行復(fù)雜報告分析的，而且它們也做的非常好。

SQL on Hadoop：這里有著很多的創(chuàng)新。這些產(chǎn)品的目的是取代數(shù)據(jù)倉庫。像Hawq和Impala這樣的產(chǎn)品已經(jīng)有所進(jìn)步。但毫無疑問的是，對于這些系統(tǒng)要接近數(shù)據(jù)倉庫的速度和效率還有很長的路要走，尤其那些有列式設(shè)計的系統(tǒng)。SQL-on-Hadoop系統(tǒng)的存在有兩個重要原因：

1) SQL仍是在數(shù)據(jù)上所能取得的最佳方式

2) 進(jìn)行處理并不需要移動大量的數(shù)據(jù)

挖掘分析：這是數(shù)據(jù)科學(xué)家的領(lǐng)域。這些工具為在數(shù)據(jù)中有所發(fā)現(xiàn)提供了某些功能：模式，模糊關(guān)系，統(tǒng)計規(guī)則等等。Mahout和R語言是此類中的流行工具。

MapReduce：通常Hadoop上所有要執(zhí)行的任務(wù)和管理工作都是在MapReduce群組中進(jìn)行的。如今很多的Hadoop用例都包括在使用上述分析工具之前進(jìn)行預(yù)處理和數(shù)據(jù)清洗。這都是這些工具和接口所允許的情況。

企業(yè)應(yīng)用程序的ETL：最后是ETL流程，它會協(xié)助從我們信任的企業(yè)應(yīng)用程序?qū)⑺械倪z留數(shù)據(jù)放入存儲所有內(nèi)容的數(shù)據(jù)池。這些應(yīng)用程序會逐漸適時地遷移至成熟的快速+大數(shù)據(jù)應(yīng)用程序。

好的，我們現(xiàn)在有了這些分析……然后呢？

我們?yōu)楹我茸龇治瞿?？很簡單，我們想要?/p>

● 更好的決策

● 更好的個性化

● 更好的檢測

● 更好的交互

應(yīng)用程序要負(fù)責(zé)交互，并且這是在你可以準(zhǔn)確并實時做這些交互時最具價值的改進(jìn)。這就引出了此架構(gòu)的第二部分，在這里我們可以更好的處理快速數(shù)據(jù)，加快實時應(yīng)用程序。

首先要注意的是，快速和大是緊耦合的，盡管它們是獨(dú)立的系統(tǒng)。至少在規(guī)模上它們必是如此。數(shù)據(jù)庫系統(tǒng)是設(shè)計來在每秒鐘處理數(shù)以百萬計的事件決策的，這與那些設(shè)計用來保存千萬億字節(jié)數(shù)據(jù)并生成擴(kuò)展報告的系統(tǒng)是截然不同的。

快速數(shù)據(jù)的實質(zhì)就是產(chǎn)生一定數(shù)量的關(guān)鍵需求以最有效地使用它。這些包括的功能有：

● 數(shù)據(jù)種子提取與交互

● 對種子中的每個事件做出決策

● 利用實時分析為快速移動的數(shù)據(jù)提供可視性

● 無縫集成到設(shè)計用來存儲大數(shù)據(jù)的系統(tǒng)中去

● 從大數(shù)據(jù)系統(tǒng)為用戶和應(yīng)用程序快速提供分析結(jié)果和知識，同時關(guān)閉數(shù)據(jù)環(huán)路。

沒有比可操作的數(shù)據(jù)庫更好的滿足這些需求的技術(shù)了。我們過去所面臨的挑戰(zhàn)是，沒有一個可操作的數(shù)據(jù)庫能夠管理這種吞吐量。結(jié)果，就有一些人用權(quán)宜之計來試圖滿足他們的需求，通常是放棄某些功能并且總是增加了復(fù)雜性。

關(guān)鍵字：數(shù)據(jù)清洗模糊關(guān)系