Apache Hadoop技術經常與大數據概念聯系在一起,它們常常同時出現在各種行業會議和媒體報道中。而IT人員、咨詢顧問和行業分析師已經逐漸達成共識,Hadoop只是諸多大數據技術中的一種。
Hadoop是一個開源技術 ,它允許公司存儲和分析分布式計算環境的海量數據。它的出現肯定對提升大數據的影響力有重要作用。但是行業觀察者指出,Hadoop現在仍存在一些問題。
Forrester機構的企業架構分析師Brian Hopkins說:“人們開始認識到,大數據和Hadoop并不是同義詞。這是因為他們下載Hadoop之后,并不意味著就能夠玩兒轉大數據,它僅僅只是一個工具。”
大數據與Hadoop:從幕后走到臺前
Hadoop最初由互聯網巨頭谷歌和雅虎共同開發,現在已經轉移到Apache軟件基金會。在贏得了大數據必備工具的稱號并開始出現一些成功案例之后,這項技術及其醒目的logo從2011年起名聲大振。
以eBay為例,這家知名電商平臺在幾次大會上都介紹了它的三層數據分析平臺。結構化數據位于第一層:一個用于保存內部業務項目(如支撐商業智能儀表板和報表)的企業數據倉庫。第二層由Teradata數據管理平臺組成,用于存儲大容量半結構化信息。而非結構化數據(如文本信息)則保存在第三層,它是一個用于深度研究、分析和實驗的Hadoop集群。
Hopkins在最新播客“大數據的超大規模價值”上指出:“現在出現了一個有趣的用例,其中Hadoop被看作是一種快速分布式環境,它成為分段存儲大量信息的場所。因為你還無法確定如何處理它,所以直接將原始文件保存在Hadoop中,然后由Hadoop處理這些文件。”
Hadoop是一個分布式文件系統,它的數據(結構化、半結構化和非結構化)存儲功能優于關系型數據庫。因此,它非常適合那些需要收集大量數據(如無統一格式的社交媒體網站內容、計算機生成的傳感器日志和GPS位置信息)的公司使用,而不會影響他們的傳統關系數據庫。
Wayne Eckerson是TechTarget業務應用研究主管,他在最新報告“大數據及其對數據倉庫的影響”中指出:“Hadoop是一種載入立即可執行的環境:管理員可以在Hadoop中存儲大量數據,而不需要將它們轉換為特定的結構。然后,用戶就可以使用他們的工具分析這些數據。”
SAS 研究所的資深行業分析師Jill Dyché也指出,Hadoop使用戶能夠查看原始數據,這在一定程度上改變了數據倉庫使用者的工作方式。
她說:“在數據倉庫領域,我們鼓勵提出業務需求,鼓勵嚴格的數據質量要求,但是不鼓勵獨立加載數據。但是在大數據領域,這一方式得到了顛覆。”
Apache Hadoop困境
Hadoop還有其他優點。例如, MapReduce能夠以并行方式處理大數據集。根據行業分析師Philip Russom的觀點,它是一個通用執行引擎,甚至能夠處理手工編碼的代碼。
但是,如果要使用MapReduce,程序員必須能夠操作它的語言。有一些工具并未被廣泛熟悉,如Hive,它使用一種類SQL的語言(HQL)訪問數據。
Russom指出:“我曾經聽人說:‘Hive很容易學。’但是,它無法真正解決與傳統SQL工具的兼容問題。”
關心數據分析的公司還需要一些技術人員參與(如數據科學家),他們應該有能力操作Hadoop的專用工具。數據科學家一般具備博士學位,因此,他們的薪水可能很高,而且也很難招聘到。
此外,這項技術還有其他一些缺點:Eckerson甚至將Apache Hadoop描述為“乳臭未干”,而且在安全性、數據質量和元數據分類等功能上存在不足。Hopkins認為它“很難用”,“不成熟”。Russom認為這項技術肯定會有不錯的前景,但是成為主流應用還需要幾年時間。
根據eBay高級技術成員和架構師Tom Fastner的觀點,即使在eBay,其核心競爭力也不在于Hadoop,而是構成數據分析平臺的第二層技術。eBay將它基于Teradata的數據庫系統稱為Singularity,并且表示它將提供30 PB空間,而并發性低于EDW。Fastner指出,Singularity的最大應用是用戶行為分析,這個流程通常可以產生寶貴的商業洞察力。
而且,Forrester的Hopkins指出,有其他技術可以幫助企業實現優于Hadoop的大數據方案。所有這些都取決于業務需求。他說:“我們分析了大數據技術的兩個不同方面。其一是結構,另一個是延遲。”
每一個方面由低到高排列,大數據工具和技術都屬于這些范疇。例如,內存技術(如SAP HANA)可以在高度結構化數據上實現低延遲的查詢結果,而大規模并行處理(MPP)技術(包括Teradata和IBM Netezza)都可以處理高延遲的高度結構化數據。
Hopkins說,雖然Hadoop能處理多種數據類型,但由于批處理的方式,這使得它無法搭建實時環境。
專家指出,Hadoop的光環可能會慢慢消退,但現在它仍然是倍受關注的技術,它的主要支持者仍然是互聯網巨頭。