Pentaho公司的軟件定位一直是做整合數(shù)據(jù)集成和分析,不過在即將發(fā)布的7.0平臺(tái)中,該公司提供了用于加速和提升數(shù)據(jù)準(zhǔn)備流程的功能。
升級(jí)后的分析、集成、數(shù)據(jù)準(zhǔn)備工具于11月發(fā)布,支持用戶在處理和準(zhǔn)備過程中的任何環(huán)節(jié)直觀地檢查數(shù)據(jù)。這樣數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和業(yè)務(wù)分析師都可以使用圖表、圖形和其它可視化組件來動(dòng)態(tài)檢查數(shù)據(jù),發(fā)現(xiàn)并提前解決潛在的數(shù)據(jù)質(zhì)量問題,而無需等到完成整個(gè)分析工作才能發(fā)現(xiàn)。
例如,他們可以看到整合兩個(gè)表的數(shù)據(jù)結(jié)果對(duì)于支持準(zhǔn)確分析來說,是否缺少了很多數(shù)值;或者在抽取、轉(zhuǎn)換和加載(ETL)集成處理過程中應(yīng)用回歸分析技術(shù)檢查是否產(chǎn)生錯(cuò)誤信息。Pentaho 7.0還支持IT團(tuán)隊(duì)發(fā)布預(yù)定義數(shù)據(jù)源給業(yè)務(wù)用戶,這樣可以加速數(shù)據(jù)準(zhǔn)備階段的協(xié)作。
Pentaho公司表示,在運(yùn)行過程中,通過準(zhǔn)備流程以協(xié)作的方式可視化檢查和評(píng)估數(shù)據(jù),這樣的功能可以縮短數(shù)據(jù)科學(xué)家和其它用戶為分析用途準(zhǔn)備數(shù)據(jù)的時(shí)間。當(dāng)然,數(shù)據(jù)工程師不大可能會(huì)對(duì)數(shù)據(jù)質(zhì)量問題創(chuàng)建流程(減少了錯(cuò)誤概率)。(2015年日立集團(tuán)有限公司收購(gòu)了Pentaho公司)
Pentaho 7.0還提供了新功能,支持與Spark SQL集成,方便ETL開發(fā)人員和數(shù)據(jù)分析師在Apache Spark集群中使用標(biāo)準(zhǔn)SQL的變體查詢數(shù)據(jù)。還有幾種其它類似功能也是專為處理大數(shù)據(jù)環(huán)境的數(shù)據(jù)而設(shè)計(jì),包括支持Kafka消息隊(duì)列系統(tǒng)、Avro和Parquet文件格式。
David Menninger是Ventana研究公司的一名技術(shù)分析師,他說Pentaho的新功能混合了分析和數(shù)據(jù)準(zhǔn)備兩方面的工作,這可能意味著數(shù)據(jù)管理的一種發(fā)展趨勢(shì)。
越來越多的企業(yè)都希望可以把數(shù)據(jù)準(zhǔn)備和分析任務(wù)更緊密地整合到一起,這樣整合過程就更能以自服務(wù)的形式完成。Menninger說:“自服務(wù)數(shù)據(jù)準(zhǔn)備成為了流行趨勢(shì)。實(shí)際上,它需要與分析過程緊密集成。”
現(xiàn)在,Menninger認(rèn)為Pentaho公司走在了市場(chǎng)的前沿,但是他預(yù)計(jì)其它廠商會(huì)很快跟風(fēng),推出比較類似的功能。
Paxata公司就是這樣一個(gè)自服務(wù)數(shù)據(jù)工具供應(yīng)商,該公司才初創(chuàng)幾年,致力于拓展軟件實(shí)現(xiàn)更高級(jí)功能。規(guī)劃增加的功能包括:引導(dǎo)客戶做必要的數(shù)據(jù)轉(zhuǎn)換;通過機(jī)器學(xué)習(xí)技術(shù)幫助用戶在語義層面更好地理解數(shù)據(jù)。
Paxata公司位于美國(guó)加州Redwood市,該公司上個(gè)月邁出了第一步,發(fā)布了同名軟件的更新版本,新版本利用了Paxata連接技術(shù),可以從不同的Hadoop集群、NoSQL數(shù)據(jù)庫(kù)和其它系統(tǒng)中抽取整合數(shù)據(jù)。Paxata公司首席產(chǎn)品官Nenshad Bardoliwalla表示,該公司計(jì)劃以季度為周期增加更多功能,不過全面打造設(shè)想的平臺(tái)還有很長(zhǎng)的路要走。