精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

Hadoop哪家強?Hortonworks、Cloudera、MapR案例集錦

責任編輯:editor006

作者:Craig Stedman

2015-06-09 14:29:40

摘自:TechTarget中國

本文綜合了Hortonworks、Cloudera、MapR三家主要的Hadoop發行版供應商的Hadoop應用案例,真是各有神通,不服來辯。Nathan預計今年年底能夠完成可視化層和分析資源池想Hadoop數據資源池架構的遷移。

本文綜合了Hortonworks、Cloudera、MapR三家主要的Hadoop發行版供應商的Hadoop應用案例,真是各有神通,不服來辯。

Cloudera:加速數據分析

Edo Interactive是一家美國市場營銷公司,幫助廣告主連接線上廣告和線下數據,提供數據驅動的個性化推薦服務。不過幾年前,Edo遇到了這樣的問題:數據倉庫系統處理信用卡交易數據耗時長,不能滿足公司向消費者和餐館進行個性化推薦的業務需求。

Edo負責基礎架構和信息系統的高級副總裁Tim Garnto表示:“處理每天的數據,要花費27小時,所以,任務是根本完不成的。”2013年,Edo用Hadoop集群替換了基于PostgreSQL的系統,為公司構建了數據資源池。

公司每天會收集來自全美5千萬次零售交易,把數據放到有20個節點的Cloudera發行的Hadoop集群上,使用Pentaho數據集成工具。從銀行和信用卡公司收集來的數據經過處理,通過預測模型向持有銀行卡或信用卡的用戶推薦優惠券等內容。優惠券信息由Edo的合作伙伴每周向客戶發送,自動和用戶的消費行為匹配。

Garnto介紹到,因為模型的復雜度不同,Edo的數據分析師可以在幾分鐘或幾小時內處理數據,這在以前,是做不到的。

不過在數據池搭建上,公司也遇到困難,最初,只有一個IT人員有Hadoop和MapReduce編程框架的經驗。公司組織了對內部員工的培訓,但新的MapReduce編程等于讓員工放棄了關系型數據庫的方法,公司在升級流程方面花費了很多時間。

要讓進入系統的生數據保持一致性,并生成標準化分析數據集也要花費一定的時間。Edo目前擁有的450億條記錄,總量255TB的數據對公司來說是核心資產,所以Garnto要倍加小心地管理,增添新的Hadoop生態系統技術,因為增加哪怕一項很小的技術,都會對系統工作的方式產生影響。Garnto因此說,在我們面臨的所有挑戰中,這是最有意思的,我們要富有遠見地規劃好集群開發的未來。

Hortonworks:降低硬件成本

收集和處理網絡、收集和物聯網活動數據的Webtrends是另一個數據資源池用戶。這是一家波蘭公司,它在去年7月部署了Hortonworks發行的Hadoop集群,在今年年初正式運行,最初是為了支持一款叫做Explore的產品,讓公司市場人員對客戶數據進行即時分析。公司負責產品架構的總監PeterCrossley表示,在60個節點的集群上,每個quarter上要添加500TB的數據,加起來有1.28PB。

Webtrends計劃使用Hadoop平臺替換原有存儲系統,通過使用Kafka信息隊列技術和自動處理腳本,網絡點擊數據可以進入集群,能夠在20到40毫秒之間進行數據分析。報表和分析基本上是實時的,比舊系統要快很多。Hadoop集群也支持更高級的分析,硬件成本要降低25%到50%。

使用Hadoop數據資源池,意味著公司管理和使用信息的意識要改變。之前,公司要首先同數據倉庫中廣泛的數據列中構建通用的數據報表。

公司還要考慮數據資源池架構和數據治理流程,以更好地管理Hadoop集群的數據。進入系統的生數據結構松散,但在數據治理上有嚴格的規定。另外,公司將Hadoop集群分成了三個獨立的層,一層負責生數據,第二層負責增加的日常數據集,第三層負責第三方信息。每一層都有自己的數據分類和治理政策,因數據集不同而各異。

MapR:有序的數據存儲

基于云的預測分析軟件供應商Razorsight 的CTO Suren Nathan在談到建立和使用Hadoop數據資源池時,也提到了要非常“有紀律、有組織”。如果不然,系統就會變成一個失控的垃圾場。

Razorsight為電信行業提供云基礎的分析服務,在2014年第二季度開始使用MapR發行的Hadoop集群。來自代理的客戶、運營和網絡數據通過自建的提取工具加載進系統,通過Spark處理引擎提供給數據科學家,該集群有5個產品節點,120TB的存儲容量。

像Webtrends一樣,Razorsight把數據資源池分為三個部分,一部分負責6個月以內的數據,一部分負責時間更長但仍然有用的數據,最后一部分負責不再使用但需要保存的數據。目前,在前兩個部分,公司有超過20TB的數據。為了使系統運行的更順暢,公司聘請了有數據治理和分布系統部署經驗的新員工,現有員工負責Hadoop、Spark和相關技術。

Hadoop集群每TB數據的成本是2千美元,是IBM Netezza數據倉庫系統的十分之一,不過Razorsight最開始建立Hadoop集群只是為了數據存儲,分析模型和數據可視化仍然是在舊系統中完成,部分原因是因為Netezza硬件和IBM的SPSS分析軟件綁定。Nathan預計今年年底能夠完成可視化層和分析資源池想Hadoop數據資源池架構的遷移。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 抚松县| 林甸县| 荃湾区| 弋阳县| 右玉县| 定边县| 昭觉县| 台江县| 濮阳市| 长乐市| 隆尧县| 六盘水市| 丹寨县| 巴楚县| 涪陵区| 武邑县| 盐池县| 沁源县| 牟定县| 达日县| 南汇区| 扎鲁特旗| 理塘县| 金山区| 徐州市| 江都市| 新密市| 龙井市| 瑞丽市| 陆丰市| 巩义市| 昌平区| 彩票| 长沙县| 枣强县| 庆元县| 沈丘县| 唐河县| 西吉县| 玛沁县| 常熟市|