Hadoop生態(tài)系統(tǒng)組成部分的廣度是其優(yōu)勢(shì)之一,但這也是一個(gè)弱點(diǎn):行業(yè)開發(fā)商可以找到一個(gè)流媒體框架,適合幾乎任何大數(shù)據(jù)用柱狀數(shù)據(jù)存儲(chǔ)或其他類型的架構(gòu)模塊,而如何將這些碎片組合在一起,對(duì)于應(yīng)用程序來(lái)說(shuō)是具有挑戰(zhàn)性的。
用于管理Hadoop大數(shù)據(jù)系統(tǒng)的新工具以不同的方式尋求解決這一問(wèn)題。其中包括來(lái)自BlueData軟件的Hadoop部署自動(dòng)化工具,來(lái)自LinkedIn公司的開放源代碼軟件,以及Hortonworks的ApacheAmbari診斷增強(qiáng)工具,這些軟件和工具可以獲得更好的可視化操作,并幫助Hadoop集群健康發(fā)展。
當(dāng)Hadoop的系統(tǒng)投入生產(chǎn)使用,可以得到更好的管理工具的需求是最迫切的。這通常意味著一次性的Hadoop工作轉(zhuǎn)移到集中集群運(yùn)行與其他部門一起工作,通常將各種各樣的Hadoop組件放在一個(gè)單一的系統(tǒng)。設(shè)置不同的配置,并在處理作業(yè)中分配優(yōu)先級(jí),而這個(gè)工作是艱巨的。
BlueData公司發(fā)言人表示,啟動(dòng)BlueData正在尋求應(yīng)對(duì)EPIC軟件平臺(tái)的挑戰(zhàn),簡(jiǎn)稱彈性私人即時(shí)集群。該軟件支持ApacheSpark處理引擎,以及來(lái)自Cloudera和Hortonworks的Hadoop分布。此外,BlueData平臺(tái)使用Docker容器技術(shù),其封裝的應(yīng)用及其配套軟件作為一個(gè)獨(dú)立的單元,對(duì)Hadoop的部署提供多租戶的方式。
BlueData的誕生
BlueData繼續(xù)關(guān)注用戶的痛點(diǎn),今年3月為多租戶部署推出了一個(gè)支持Hadoop的工作的基于服務(wù)質(zhì)量?jī)?yōu)先級(jí)分配政策,并提高了處理和增加配額的執(zhí)法能力。
“Hadoop的配置是一種痛苦,我必須為陪審團(tuán)提供一個(gè)陪審員。”佐治亞大學(xué)計(jì)算機(jī)科學(xué)助理教授奎因說(shuō)。奎因和參與自己的研究項(xiàng)目的一部分學(xué)生需要?jiǎng)?chuàng)建Hadoop環(huán)境。作為首席研究員,他的工作涉及使用Hadoop來(lái)支持計(jì)算機(jī)視覺和模式識(shí)別,可以整合各種數(shù)據(jù)類型,包括推特(Twitter)數(shù)據(jù)的大規(guī)模研究。
奎因使用BlueData的EPIC平臺(tái)證明了一個(gè)概念項(xiàng)目,取得了一部分的良好效果的。“現(xiàn)在我們可以細(xì)分出就業(yè)機(jī)會(huì),他們都有自己的虛擬池,在這里我們可以設(shè)置優(yōu)先級(jí)。”他說(shuō)。
他認(rèn)為使用容器的一個(gè)好處是,他們提供了一個(gè)更輕的軟件堆棧。奎因能夠與BlueData的工具運(yùn)行自己的自定義容器。雖然這種工作仍然需要精通技術(shù),他說(shuō),他看到BlueData工作可以緩解開發(fā)技能的要求。
對(duì)于奎因來(lái)說(shuō),從POC到生產(chǎn)要解決成本的問(wèn)題。他判斷BlueData的經(jīng)濟(jì)學(xué)有利于在亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)云建立,但表示,他仍然需要吸引其他研究人員分擔(dān)投產(chǎn)的成本。(EPICBlueData企業(yè)的定價(jià)為每個(gè)物理核心處理器的成本為500美元,但有批量折扣。)
亞馬遜公司的Hadoop的平臺(tái)在延時(shí)系統(tǒng)與運(yùn)行彈性MapReduce方面,可以其彈性計(jì)算云相媲美。奎因說(shuō),“在一般情況下,與AWS平臺(tái)相比,其速度比AWS更快。”
采用Hadoop與以往的技術(shù)相比,從開發(fā)到經(jīng)營(yíng)管理的飛躍是痛苦的。一個(gè)問(wèn)題是調(diào)整工作,確保他們不互相爭(zhēng)奪Hadoop集群資源。
LinkedIn公司的數(shù)據(jù)科學(xué)家和工程師經(jīng)常會(huì)發(fā)現(xiàn)自己辛辛苦苦跟蹤性能問(wèn)題時(shí),他們的工作已經(jīng)寫入開始在生產(chǎn)中定期運(yùn)行,LinkedIn公司的Hadoop開發(fā)團(tuán)隊(duì)的技術(shù)主管,資深軟件工程師卡爾·施泰因巴赫表示,讓工作有效運(yùn)行是一項(xiàng)艱巨的任務(wù),因?yàn)镠adoop的許多組件,認(rèn)為ApachePig,HBase,Spark,MapReduce等許多組件可以結(jié)合起來(lái),對(duì)這些一大堆的虛擬表盤和旋鈕,需要正確設(shè)置。
“Hadoop是強(qiáng)大的,但是從用戶的角度來(lái)看它是混亂的。”施泰因巴赫說(shuō)。“如果你喜歡按鈕,它會(huì)給你想要的更多的按鈕。”
一段時(shí)間以來(lái),LinkedIn公司已經(jīng)分析了Hadoop的處理流程,并建議他們的開發(fā)人員如何改進(jìn)。而隨著Hadoop在更多的應(yīng)用中運(yùn)行,這變得更加困難。因此,LinkedIn公司已經(jīng)創(chuàng)建了自動(dòng)化的工藝性能監(jiān)控和調(diào)節(jié)工具。作為對(duì)Hadoop的吉祥物,其監(jiān)控軟件被稱為大象博士。
一個(gè)Hadoop集群的視圖
對(duì)Hadoop的部署最佳做法進(jìn)行“訓(xùn)練”,通過(guò)大象博士觀察處理活動(dòng),并在數(shù)據(jù)中心就如何調(diào)整自己的Hadoop工作,這需要數(shù)據(jù)科學(xué)家和其他人的意見。
“它的工作方式非常接近類比醫(yī)學(xué)。”施泰因巴赫說(shuō),“如果你去做檢查,發(fā)現(xiàn)你的血壓很高,醫(yī)生就會(huì)告訴你需要減少鹽分,并堅(jiān)持吃藥。
大象博士具備同樣的功能,他說(shuō),工作在集群上運(yùn)行,創(chuàng)建日志和指標(biāo)。該軟件從Hadoop集群的YARN資源管理器檢索這些數(shù)據(jù)并運(yùn)行,它決定了工作的執(zhí)行。Hadoop作業(yè)所有者可以通過(guò)一個(gè)可視化儀表板看到由此產(chǎn)生的可用信息。
施泰因巴赫表示,LinkedIn公司日前推出了Apache2.0版本許可證的開源項(xiàng)目,并提供了大象博士代碼。預(yù)計(jì)在未來(lái)的版本中,將更好地整合Spark和資源使用的可視化,以及對(duì)算法的更新。
Hadoop的可視化管理指標(biāo)
新的儀表盤和可視化數(shù)據(jù)也被添加到Ambari,這是Hortonworks公司開發(fā)的一個(gè)開源的Hadoop管理工具。而推出的Ambari2.2.2版本將包括預(yù)建的儀表盤,可以讓Hadoop的系統(tǒng)管理員對(duì)使用的跨集群資源和集群整體健康指標(biāo)實(shí)現(xiàn)可視化。
Hortonworks公司產(chǎn)品和聯(lián)盟營(yíng)銷副總裁馬修·摩根表示,通過(guò)儀表板提供的信息可以顯著擴(kuò)大監(jiān)測(cè)能力,以及通過(guò)Ambari管理大型集群的能力。
Hortonworks也正在整合分別提供了數(shù)據(jù)管理和安全管理能力的Atlas和Ranger的開源技術(shù),。該聯(lián)動(dòng)目前作為技術(shù)預(yù)覽,讓通過(guò)應(yīng)用Atlas元數(shù)據(jù)標(biāo)簽的IT團(tuán)隊(duì)對(duì)數(shù)據(jù)進(jìn)行分類,然后用Ranger執(zhí)行基于標(biāo)簽的數(shù)據(jù)訪問(wèn)策略。
Hortonworks,LinkedIn和BlueData并不孤單,而通過(guò)技術(shù)人員的努力將為大數(shù)據(jù)管理員帶來(lái)更清晰的Hadoop集群視圖。Hortonworks公司的競(jìng)爭(zhēng)對(duì)手Cloudera已經(jīng)推出了ClouderaManager的更新版本,旨在更加深入地了解Hadoop的工作負(fù)荷活動(dòng),并啟動(dòng)Pepperdata創(chuàng)造了一個(gè)支持自動(dòng)調(diào)整工作負(fù)載的Hadoop集群管理器。