Hadoop在過去幾年引起很多關(guān)注,因?yàn)樗哂刑幚砗A扛鞣N數(shù)據(jù)的能力。但Hadoop的批處理存在問題,用戶對(duì)此的吐槽也越來越多,說這一流程拖慢迭代分析的數(shù)據(jù)提取。不過,最近新面世的兩個(gè)Hadoop分析工具則有望超越同行分析工具,加速處理速度。
Skytree將機(jī)器學(xué)習(xí)植入Hadoop集群
位于美國加州的Skytree公司上個(gè)月發(fā)布了最新版本的機(jī)器學(xué)習(xí)軟件,它承諾可以改善對(duì)非結(jié)構(gòu)化數(shù)據(jù)的提取、轉(zhuǎn)換和加載(ETL)功能并且對(duì)安全工具進(jìn)行了增強(qiáng),旨在加強(qiáng)治理,并將這款軟件更多地定位為企業(yè)級(jí)系統(tǒng)。
Skytree的機(jī)器學(xué)習(xí)軟件可以操作各種來源的數(shù)據(jù),但是Skytree卻把這款產(chǎn)品作為Hadoop的自然搭配加以推出。Robert Dutcher 是Skytree的營銷副總裁,他說公司采用這一策略是因?yàn)閿?shù)據(jù)在Hadoop中是并行處理的。Hadoop使用批處理,跨許多節(jié)點(diǎn)分配任務(wù),比起在一個(gè)單一節(jié)點(diǎn)上運(yùn)行一項(xiàng)任務(wù),這樣的確可以提供不錯(cuò)的速度。這就讓程序員可以對(duì)機(jī)器學(xué)習(xí)任務(wù)進(jìn)行迭代。
新版軟件主要關(guān)注的是在非結(jié)構(gòu)化數(shù)據(jù)上做機(jī)器學(xué)習(xí)。這對(duì)于Skytree來說通常都是可行的,但是公司宣稱此次更新通過把分配屬性給數(shù)據(jù)點(diǎn)這一過程進(jìn)一步自動(dòng)化簡化了分析之用的非結(jié)構(gòu)化數(shù)據(jù)的準(zhǔn)備。
本次更新包括了一個(gè)全新的管理控制臺(tái),它可以讓管理員分配權(quán)限來定義什么樣的數(shù)據(jù)源是可訪問的,以及用戶要如何對(duì)它們進(jìn)行合并。
Arcadia將BI植入Hadoop
Arcadia Data公司算是BI領(lǐng)域的新人,一直低調(diào)運(yùn)營,直至今年夏天,公司宣布推出新款Hadoop BI工具,旨在用來消除Hadoop和業(yè)務(wù)用戶之間的中間系統(tǒng)。
該公司總部位于美國加州,通過使用一個(gè)系統(tǒng)實(shí)現(xiàn)上述目標(biāo),此系統(tǒng)可以隨著時(shí)間的推移,學(xué)習(xí)用戶的查詢并且能夠在Hadoop中為常用查詢數(shù)據(jù)創(chuàng)建預(yù)定義形式。
該工具提供了一個(gè)可視化界面,它可以讓業(yè)務(wù)用戶瀏覽數(shù)據(jù)并將數(shù)據(jù)可視化。它的預(yù)置函數(shù)可以執(zhí)行客戶細(xì)分,購買路徑分析等任務(wù)。
雖然Hadoop歷來就是一個(gè)批處理引擎,但它的速度也是有限制的,Arcadia的高管說他們工具的速度要優(yōu)于競爭對(duì)手(如Tableau Software和MicroStrategy Inc.)的BI工具,這是因?yàn)槿蝿?wù)是在Hadoop本地運(yùn)行的,而不經(jīng)過中間系統(tǒng)。
BI-on-Hadoop根據(jù)該軟件安裝的每個(gè)節(jié)點(diǎn)、每年進(jìn)行收費(fèi)。