企業(yè)數(shù)據(jù)架構(gòu)正在成形,并且對快數(shù)據(jù)的處理與現(xiàn)在所說的大數(shù)據(jù)處理方法是不同的。在本文中,筆者會闡釋企業(yè)數(shù)據(jù)架構(gòu)的設(shè)想,而此架構(gòu)可以讓企業(yè)實現(xiàn)對快速數(shù)據(jù)和大數(shù)據(jù)的整合。
企業(yè)大數(shù)據(jù)架構(gòu)的基礎(chǔ)是Data Lake(數(shù)據(jù)湖),或稱之為數(shù)據(jù)池、數(shù)據(jù)儲備庫或是其他。很明顯,它是企業(yè)用來存放其所有數(shù)據(jù)的場所。此組件并不因為設(shè)計和功能上的原因而顯得獨(dú)特,但是它卻因為要存儲一切內(nèi)容而成為一個有著巨大成本效益的系統(tǒng)。從本質(zhì)上講,它是一個在廉價商用機(jī)器上的分布式文件系統(tǒng)。
可能某項技術(shù)格外吸引眼球,比如說HDFS或是其他技術(shù),但關(guān)鍵在于,這里匯集了所有數(shù)據(jù)。此平臺將會:
1. 存儲要發(fā)送給其他數(shù)據(jù)管理產(chǎn)品的數(shù)據(jù)
2. 支持可以對文件系統(tǒng)數(shù)據(jù)直接執(zhí)行任務(wù)的框架
圍繞在Data Lake周圍的是一些補(bǔ)充技術(shù),它們可以讓人從那些存儲在Data Lake中的數(shù)據(jù)獲取認(rèn)知和價值。它們包括:
BI報表:數(shù)據(jù)倉庫可以出色的執(zhí)行報告任務(wù),并且可以持續(xù)提供此功能。一些數(shù)據(jù)會導(dǎo)出至那些系統(tǒng)并在那里臨時存儲,同時會以混合方式從Data Lake直接訪問其他數(shù)據(jù)。這些數(shù)據(jù)倉庫系統(tǒng)是專門設(shè)計來執(zhí)行復(fù)雜報告分析的,而且它們也做的非常好。
SQL on Hadoop:這里有著很多的創(chuàng)新。這些產(chǎn)品的目的是取代數(shù)據(jù)倉庫。像Hawq和Impala這樣的產(chǎn)品已經(jīng)有所進(jìn)步。但毫無疑問的是,對于這些系統(tǒng)要接近數(shù)據(jù)倉庫的速度和效率還有很長的路要走,尤其那些有列式設(shè)計的系統(tǒng)。SQL-on-Hadoop系統(tǒng)的存在有兩個重要原因:
1) SQL仍是在數(shù)據(jù)上所能取得的最佳方式
2) 進(jìn)行處理并不需要移動大量的數(shù)據(jù)
挖掘分析:這是數(shù)據(jù)科學(xué)家的領(lǐng)域。這些工具為在數(shù)據(jù)中有所發(fā)現(xiàn)提供了某些功能:模式,模糊關(guān)系,統(tǒng)計規(guī)則等等。Mahout和R語言是此類中的流行工具。
MapReduce:通常Hadoop上所有要執(zhí)行的任務(wù)和管理工作都是在MapReduce群組中進(jìn)行的。如今很多的Hadoop用例都包括在使用上述分析工具之前進(jìn)行預(yù)處理和數(shù)據(jù)清洗。這都是這些工具和接口所允許的情況。
企業(yè)應(yīng)用程序的ETL:最后是ETL流程,它會協(xié)助從我們信任的企業(yè)應(yīng)用程序?qū)⑺械倪z留數(shù)據(jù)放入存儲所有內(nèi)容的數(shù)據(jù)池。這些應(yīng)用程序會逐漸適時地遷移至成熟的快速+大數(shù)據(jù)應(yīng)用程序。
好的,我們現(xiàn)在有了這些分析……然后呢?
我們?yōu)楹我茸龇治瞿??很簡單,我們想要?/p>
● 更好的決策
● 更好的個性化
● 更好的檢測
● 更好的交互
應(yīng)用程序要負(fù)責(zé)交互,并且這是在你可以準(zhǔn)確并實時做這些交互時最具價值的改進(jìn)。這就引出了此架構(gòu)的第二部分,在這里我們可以更好的處理快速數(shù)據(jù),加快實時應(yīng)用程序。
首先要注意的是,快速和大是緊耦合的,盡管它們是獨(dú)立的系統(tǒng)。至少在規(guī)模上它們必是如此。數(shù)據(jù)庫系統(tǒng)是設(shè)計來在每秒鐘處理數(shù)以百萬計的事件決策的,這與那些設(shè)計用來保存千萬億字節(jié)數(shù)據(jù)并生成擴(kuò)展報告的系統(tǒng)是截然不同的。
快速數(shù)據(jù)的實質(zhì)就是產(chǎn)生一定數(shù)量的關(guān)鍵需求以最有效地使用它。這些包括的功能有:
● 數(shù)據(jù)種子提取與交互
● 對種子中的每個事件做出決策
● 利用實時分析為快速移動的數(shù)據(jù)提供可視性
● 無縫集成到設(shè)計用來存儲大數(shù)據(jù)的系統(tǒng)中去
● 從大數(shù)據(jù)系統(tǒng)為用戶和應(yīng)用程序快速提供分析結(jié)果和知識,同時關(guān)閉數(shù)據(jù)環(huán)路。
沒有比可操作的數(shù)據(jù)庫更好的滿足這些需求的技術(shù)了。我們過去所面臨的挑戰(zhàn)是,沒有一個可操作的數(shù)據(jù)庫能夠管理這種吞吐量。結(jié)果,就有一些人用權(quán)宜之計來試圖滿足他們的需求,通常是放棄某些功能并且總是增加了復(fù)雜性。