從高成本數(shù)據(jù)倉(cāng)庫(kù)將任務(wù)卸載有時(shí)被看做是Hadoop商用集群的首要目標(biāo)。遷移提取、轉(zhuǎn)換、加載(ETL)、查詢以及報(bào)告工作并不能顯著改變商業(yè)模式,但它可能會(huì)抑制數(shù)據(jù)倉(cāng)庫(kù)的增長(zhǎng)和成本。
但是,即便進(jìn)入Hadoop時(shí)代已經(jīng)有些年頭了,將任務(wù)遷移至分布式平臺(tái)并非易事。能夠找出哪些任務(wù)在不給大量開發(fā)人員帶來(lái)麻煩的情況下進(jìn)行遷移,有助于數(shù)據(jù)管理人員做出最佳選擇。
一款來(lái)自Cloudera公司的Hadoop工具Navigator Optimizer可能是個(gè)不錯(cuò)的選擇。它源于該公司在2015年收購(gòu)的Xplain.io,這家公司試圖將某些與SQL類似的數(shù)據(jù)庫(kù)優(yōu)化功能引入Hadoop。該產(chǎn)品于今夏開始正式供應(yīng)。
“該工具可以讓人們查看那些正在其他平臺(tái)上運(yùn)行的查詢,并可以查看它們將會(huì)如何在我們的Hadoop環(huán)境中表現(xiàn),” Conversant的一名軟件工程經(jīng)理Peter Wojciechowski說(shuō),而Conversant是一家數(shù)字營(yíng)銷公司,它通過(guò)對(duì)大量數(shù)據(jù)的處理來(lái)呈現(xiàn)個(gè)性化的廣告。
Conversant在查詢中的表現(xiàn)Conversant最初是將Hadoop用作數(shù)據(jù)的第一著陸點(diǎn),之后通過(guò)Pivotal Greenplum數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行處理以用于分析。團(tuán)隊(duì)使用Navigator已經(jīng)能夠?qū)⒛承┤蝿?wù)遷移至Hadoop和Apache Hive數(shù)據(jù)倉(cāng)庫(kù)以及Impala SQL查詢環(huán)境。
“如今,核心的ETL和某些大型處理工作是在一個(gè)Hadoop集群上進(jìn)行的,”Wojciechowski說(shuō),高度迭代的處理工作對(duì)于Hadoop來(lái)說(shuō)是不錯(cuò)的目標(biāo),但Greenplum并未被取代。在他的公司里,Greenplum仍擔(dān)當(dāng)著重要的分析責(zé)任。但現(xiàn)在,其使用則更為精煉。
Wojciechowski說(shuō),“以前,Greenplum負(fù)責(zé)了所有的工作負(fù)載,但并不是所有工作負(fù)載都與其契合。現(xiàn)在,有了該工具,我們就能更加游刃有余,例如,我們可以判斷什么才是適合在Hive中運(yùn)行的。”
通過(guò)使用Optimizer,Wojciechowski和他的團(tuán)隊(duì)能夠說(shuō)出在Hive和Impla中查詢將會(huì)如何更好的執(zhí)行,這就如同是接受在新環(huán)境中查詢是如何執(zhí)行的指導(dǎo)是一樣的。Hadoop工具在生產(chǎn)中還有著進(jìn)一步的應(yīng)用。Optimizer與Navigator協(xié)同工作會(huì)幫助你判斷如何將工作負(fù)載查詢進(jìn)行分組,這樣就能發(fā)現(xiàn)更多的重復(fù)并更有效的對(duì)集群進(jìn)行利用,”他說(shuō)。
像Navigator Optimizer之類的技術(shù)有助于揭示數(shù)據(jù)連接,這是一個(gè)SQL常見(jiàn)的特性,而它會(huì)對(duì)Hadoop造成阻礙,451 Research的分析師James Curtis如是說(shuō)。“Navigator會(huì)在將任務(wù)遷移至Impala或Hive之前對(duì)已有工作進(jìn)行分析,并對(duì)需要重做的連接數(shù)量進(jìn)行估計(jì),”他說(shuō)。
對(duì)于該工具在任務(wù)遷移中的作用他表示認(rèn)同,但他強(qiáng)調(diào)對(duì)查詢的優(yōu)化遠(yuǎn)比僅用于遷移有著更廣泛的使用。“對(duì)于那些擁有數(shù)以千計(jì)查詢的公司來(lái)說(shuō),優(yōu)化查詢并不是瑣碎的工作,”Curtis說(shuō)。
改變和提升
像Cloudera Navigator套件之類產(chǎn)品的可用性可以覆蓋包括所有最困難遷移任務(wù)中的一項(xiàng):即將主框架數(shù)據(jù)遷移至Hadoop生態(tài)系統(tǒng)。
為此,主框架和Hadoop數(shù)據(jù)轉(zhuǎn)換公司Syncsort表示,它正在和Cloudera合作,通過(guò)將Navigator連接至其工具來(lái)追蹤傳統(tǒng)來(lái)源的數(shù)據(jù)沿襲以改善數(shù)據(jù)治理。這些傳統(tǒng)來(lái)源不僅限于主框架,而是包括運(yùn)行在中端系統(tǒng)上的數(shù)據(jù)倉(cāng)庫(kù)。
對(duì)于將關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)任務(wù)遷移至Hadoop來(lái)說(shuō),Cloudera并不是可以提供工具唯一廠商,這一領(lǐng)域是十分活躍的。
對(duì)于他們來(lái)說(shuō),獨(dú)立的Hadoop分銷競(jìng)爭(zhēng)對(duì)手Hortonworks和MapR Technologies Inc.會(huì)提供相關(guān)的Hadoop工具,包括基于Apache Calcite的SQL優(yōu)化工具,而Apache Calcite是一款包括了一個(gè)SQL解析器和查詢規(guī)劃器的開源項(xiàng)目,而它剛剛迎來(lái)它的第一個(gè)生日。
而且,數(shù)據(jù)管理服務(wù)公司Bitwise最近推出了Hydrograph,這是一款旨在簡(jiǎn)化卸載ETL工作負(fù)載到Hadoop和其他大數(shù)據(jù)框架的工具。Bitwise的軟件是與客戶Capital One一起開發(fā)的,它基于的開發(fā)環(huán)境使用了XML接口,因此任務(wù)可以遷移至不同的Hadoop框架,例如從MapReduce到Tez,只需要少量重新配置。
如果這些Hadoop工具能夠讓遷移設(shè)計(jì)更上一層樓并不斷探索試錯(cuò),則會(huì)改善對(duì)Hadoop的提升。對(duì)于企業(yè)中Hadoop和它的生態(tài)系統(tǒng)組件來(lái)說(shuō),在平臺(tái)上高效地獲取數(shù)據(jù)倉(cāng)庫(kù)工作仍是一項(xiàng)重要步驟。