精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

HP Vertica用戶心聲: Hadoop做數(shù)據(jù)分析仍不夠完美

責(zé)任編輯:editor005

作者:Ed Burns

2015-09-09 14:24:46

摘自:TechTarget中國

對于許多人而言,Hadoop已經(jīng)成為了大數(shù)據(jù)的代名詞。這就是Etsy公司使用Vertica數(shù)據(jù)庫保存所有建模數(shù)據(jù),并用一個Hadoop集群存儲非實時數(shù)據(jù)的原因。Yamada指出,數(shù)據(jù)分析師“不應(yīng)該搜遍Hadoop只為了創(chuàng)建一個KPI儀表板。

對于許多人而言,Hadoop已經(jīng)成為了大數(shù)據(jù)的代名詞。它非常適合用于處理大數(shù)據(jù)流行定義中的三個V:數(shù)據(jù)量大(volume)、流動速度快(velocity)和數(shù)據(jù)類型多(variety)。但是,在處理一些迭代數(shù)據(jù)較多的數(shù)據(jù)科學(xué)工作時,如創(chuàng)建預(yù)測模型或數(shù)據(jù)可視化,這個分布式處理框架通常很少能發(fā)揮直接作用。

Hadoop分布式文件系統(tǒng)(HDFS)已經(jīng)進(jìn)化為可以存儲大量不同類型的數(shù)據(jù),而且近幾年里出現(xiàn)了各種各樣專門簡化從Hadoop獲取分析數(shù)據(jù)的開源項目和商業(yè)技術(shù),比如在Hadoop查詢引擎上使用SQL的新特性。但是,惠普Vertica分析型數(shù)據(jù)庫的用戶指出,這些工具并不能完成他們企業(yè)內(nèi)的預(yù)測建模或數(shù)據(jù)可視化工作,因此這將限制在分析應(yīng)用中使用Hadoop的潛在優(yōu)勢。

本月在美國波士頓舉行的2015年惠普大數(shù)據(jù)年會(HP Big Data Conference 2015)上,電商網(wǎng)站Etsy公司的高級數(shù)據(jù)庫工程師Chris Bohn向TechTarget記者表示:“Hadoop是一個面向批處理的系統(tǒng),雖然他們盡力嘗試將Pig和Hive置于頂層,但是它仍然還做不到最好。我認(rèn)為如果它能達(dá)到理想中的目標(biāo)那會非常好,但目前它是否足夠靈活地支持不斷的查詢操作呢?至少現(xiàn)在它還做不到。”

Bohn認(rèn)為,用于預(yù)測建模的數(shù)據(jù)不應(yīng)該存儲在Hadoop中。這會使分析師很難從HDFS獲取數(shù)據(jù),它需要有一個查詢引擎。而且,任何影響分析師獲取數(shù)據(jù)的東西都會延長分析和發(fā)現(xiàn)業(yè)務(wù)價值的時間。

這就是Etsy公司使用Vertica數(shù)據(jù)庫保存所有建模數(shù)據(jù),并用一個Hadoop集群存儲非實時數(shù)據(jù)的原因。Bohn說:“僅僅囤積數(shù)據(jù)是沒有任何價值的。只有當(dāng)數(shù)據(jù)分析師能自己獲取數(shù)據(jù),他們才能更好地利用他們的時間。”

當(dāng)數(shù)據(jù)庫工程師遇見Hadoop

日本W(wǎng)eb門戶與電子商務(wù)網(wǎng)站DeNa的數(shù)據(jù)分析師向TechTarget記者透露,他們之前在一些基本的商業(yè)智能和分析應(yīng)用中遇到了類似的問題。該公司的分析基礎(chǔ)架構(gòu)部總經(jīng)理Kenshin Yamada指出,所有公司的點擊流數(shù)據(jù)都存儲在一個Hadoop集群中。但是,這使得分析師很難產(chǎn)生流量報表,也很難分析各種內(nèi)容的流行度。在從Hadoop創(chuàng)建每一個新報表時,數(shù)據(jù)庫工程師都不得不編寫查詢給分析師提供他們所需要的數(shù)據(jù)。

2013年,DeNA在它的Hadoop系統(tǒng)上補充了一個Vertica數(shù)據(jù)庫。Yamada指出,這樣做提高了數(shù)據(jù)訪問便利性,縮短了分析師獲取所需信息的時間。相對于使用Hadoop作為分析數(shù)據(jù)源,新方法能夠更好地支持迭代的數(shù)據(jù)科學(xué)工作,因為這提高了Vertica系統(tǒng)的查詢執(zhí)行速度,從而允許分析師在相對較短的時間內(nèi)試驗各種不同的設(shè)想。

Yamada指出,數(shù)據(jù)分析師“不應(yīng)該搜遍Hadoop只為了創(chuàng)建一個KPI儀表板。”

Hadoop仍然缺少對R語言的支持

Anmol Walia是客戶服務(wù)合同商24/7 Customer的高級應(yīng)用研究員,他在使用Vertica時遇到了類似的情況。就如同這家公司的名字一樣,他們需要提供7x24小時的服務(wù)網(wǎng)。它會提取點擊流數(shù)據(jù)和客戶提供的消費客戶記錄,然后使用這些信息去預(yù)測哪些客戶在瀏覽電子商務(wù)網(wǎng)站時需要幫助,從而能夠主動地發(fā)起干預(yù)。首先所有數(shù)據(jù)先進(jìn)入Hadoop,但是預(yù)測客戶需求的模型建立在Vertica上,而后者專門為這個工作從Hadoop獲取數(shù)據(jù)。

Walia指出,采用這種方法的一個原因是Vertica支持R編程語言,這是大多數(shù)公司數(shù)據(jù)分析師所使用的語言。相反,R與Hadoop之間并沒有簡單的集成方法。

他指出,這兩個開源工具也可能集成在一起,但是它們是運行在完全不同的基礎(chǔ)架構(gòu)上。Hadoop核心是一個分布式文件系統(tǒng),而R是單線程語言,專門用于處理單CPU的作業(yè)。而將它們集成在一起的方法通常需要許多的手動編程工作。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 丰城市| 石阡县| 镇平县| 六盘水市| 涪陵区| 兴海县| 黔南| 论坛| 洛阳市| 光泽县| 阿尔山市| 康乐县| 巫溪县| 扎囊县| 新建县| 满洲里市| 屏山县| 敖汉旗| 龙岩市| 桂林市| 泾源县| 寿阳县| 新化县| 石阡县| 百色市| 蒙自县| 仁怀市| 肇庆市| 兰考县| 静安区| 沧源| 固原市| 汉源县| 阳高县| 潼南县| 肇东市| 德州市| 永定县| 库伦旗| 佳木斯市| 新干县|