本文綜合了Hortonworks、Cloudera、MapR三家主要的Hadoop發行版供應商的Hadoop應用案例,真是各有神通,不服來辯。
Cloudera:加速數據分析
Edo Interactive是一家美國市場營銷公司,幫助廣告主連接線上廣告和線下數據,提供數據驅動的個性化推薦服務。不過幾年前,Edo遇到了這樣的問題:數據倉庫系統處理信用卡交易數據耗時長,不能滿足公司向消費者和餐館進行個性化推薦的業務需求。
Edo負責基礎架構和信息系統的高級副總裁Tim Garnto表示:“處理每天的數據,要花費27小時,所以,任務是根本完不成的。”2013年,Edo用Hadoop集群替換了基于PostgreSQL的系統,為公司構建了數據資源池。
公司每天會收集來自全美5千萬次零售交易,把數據放到有20個節點的Cloudera發行的Hadoop集群上,使用Pentaho數據集成工具。從銀行和信用卡公司收集來的數據經過處理,通過預測模型向持有銀行卡或信用卡的用戶推薦優惠券等內容。優惠券信息由Edo的合作伙伴每周向客戶發送,自動和用戶的消費行為匹配。
Garnto介紹到,因為模型的復雜度不同,Edo的數據分析師可以在幾分鐘或幾小時內處理數據,這在以前,是做不到的。
不過在數據池搭建上,公司也遇到困難,最初,只有一個IT人員有Hadoop和MapReduce編程框架的經驗。公司組織了對內部員工的培訓,但新的MapReduce編程等于讓員工放棄了關系型數據庫的方法,公司在升級流程方面花費了很多時間。
要讓進入系統的生數據保持一致性,并生成標準化分析數據集也要花費一定的時間。Edo目前擁有的450億條記錄,總量255TB的數據對公司來說是核心資產,所以Garnto要倍加小心地管理,增添新的Hadoop生態系統技術,因為增加哪怕一項很小的技術,都會對系統工作的方式產生影響。Garnto因此說,在我們面臨的所有挑戰中,這是最有意思的,我們要富有遠見地規劃好集群開發的未來。
Hortonworks:降低硬件成本
收集和處理網絡、收集和物聯網活動數據的Webtrends是另一個數據資源池用戶。這是一家波蘭公司,它在去年7月部署了Hortonworks發行的Hadoop集群,在今年年初正式運行,最初是為了支持一款叫做Explore的產品,讓公司市場人員對客戶數據進行即時分析。公司負責產品架構的總監PeterCrossley表示,在60個節點的集群上,每個quarter上要添加500TB的數據,加起來有1.28PB。
Webtrends計劃使用Hadoop平臺替換原有存儲系統,通過使用Kafka信息隊列技術和自動處理腳本,網絡點擊數據可以進入集群,能夠在20到40毫秒之間進行數據分析。報表和分析基本上是實時的,比舊系統要快很多。Hadoop集群也支持更高級的分析,硬件成本要降低25%到50%。
使用Hadoop數據資源池,意味著公司管理和使用信息的意識要改變。之前,公司要首先同數據倉庫中廣泛的數據列中構建通用的數據報表。
公司還要考慮數據資源池架構和數據治理流程,以更好地管理Hadoop集群的數據。進入系統的生數據結構松散,但在數據治理上有嚴格的規定。另外,公司將Hadoop集群分成了三個獨立的層,一層負責生數據,第二層負責增加的日常數據集,第三層負責第三方信息。每一層都有自己的數據分類和治理政策,因數據集不同而各異。
MapR:有序的數據存儲
基于云的預測分析軟件供應商Razorsight 的CTO Suren Nathan在談到建立和使用Hadoop數據資源池時,也提到了要非常“有紀律、有組織”。如果不然,系統就會變成一個失控的垃圾場。
Razorsight為電信行業提供云基礎的分析服務,在2014年第二季度開始使用MapR發行的Hadoop集群。來自代理的客戶、運營和網絡數據通過自建的提取工具加載進系統,通過Spark處理引擎提供給數據科學家,該集群有5個產品節點,120TB的存儲容量。
像Webtrends一樣,Razorsight把數據資源池分為三個部分,一部分負責6個月以內的數據,一部分負責時間更長但仍然有用的數據,最后一部分負責不再使用但需要保存的數據。目前,在前兩個部分,公司有超過20TB的數據。為了使系統運行的更順暢,公司聘請了有數據治理和分布系統部署經驗的新員工,現有員工負責Hadoop、Spark和相關技術。
Hadoop集群每TB數據的成本是2千美元,是IBM Netezza數據倉庫系統的十分之一,不過Razorsight最開始建立Hadoop集群只是為了數據存儲,分析模型和數據可視化仍然是在舊系統中完成,部分原因是因為Netezza硬件和IBM的SPSS分析軟件綁定。Nathan預計今年年底能夠完成可視化層和分析資源池想Hadoop數據資源池架構的遷移。