精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

Hadoop與大數據不是同義詞

責任編輯:vivian

2012-11-07 08:47:30

摘自:論壇

Apache Hadoop技術經常與大數據概念聯系在一起,它們常常同時出現在各種行業會議和媒體報道中。

Apache Hadoop技術經常與大數據概念聯系在一起,它們常常同時出現在各種行業會議和媒體報道中。而IT人員、咨詢顧問和行業分析師已經逐漸達成共識,Hadoop只是諸多大數據技術中的一種。

Hadoop是一個開源技術 ,它允許公司存儲和分析分布式計算環境的海量數據。它的出現肯定對提升大數據的影響力有重要作用。但是行業觀察者指出,Hadoop現在仍存在一些問題。

Forrester機構的企業架構分析師Brian Hopkins說:“人們開始認識到,大數據和Hadoop并不是同義詞。這是因為他們下載Hadoop之后,并不意味著就能夠玩兒轉大數據,它僅僅只是一個工具。”

大數據與Hadoop:從幕后走到臺前

Hadoop最初由互聯網巨頭谷歌和雅虎共同開發,現在已經轉移到Apache軟件基金會。在贏得了大數據必備工具的稱號并開始出現一些成功案例之后,這項技術及其醒目的logo從2011年起名聲大振。

以eBay為例,這家知名電商平臺在幾次大會上都介紹了它的三層數據分析平臺。結構化數據位于第一層:一個用于保存內部業務項目(如支撐商業智能儀表板和報表)的企業數據倉庫。第二層由Teradata數據管理平臺組成,用于存儲大容量半結構化信息。而非結構化數據(如文本信息)則保存在第三層,它是一個用于深度研究、分析和實驗的Hadoop集群。

Hopkins在最新播客“大數據的超大規模價值”上指出:“現在出現了一個有趣的用例,其中Hadoop被看作是一種快速分布式環境,它成為分段存儲大量信息的場所。因為你還無法確定如何處理它,所以直接將原始文件保存在Hadoop中,然后由Hadoop處理這些文件。”

Hadoop是一個分布式文件系統,它的數據(結構化、半結構化和非結構化)存儲功能優于關系型數據庫。因此,它非常適合那些需要收集大量數據(如無統一格式的社交媒體網站內容、計算機生成的傳感器日志和GPS位置信息)的公司使用,而不會影響他們的傳統關系數據庫。

Wayne Eckerson是TechTarget業務應用研究主管,他在最新報告“大數據及其對數據倉庫的影響”中指出:“Hadoop是一種載入立即可執行的環境:管理員可以在Hadoop中存儲大量數據,而不需要將它們轉換為特定的結構。然后,用戶就可以使用他們的工具分析這些數據。”

SAS 研究所的資深行業分析師Jill Dyché也指出,Hadoop使用戶能夠查看原始數據,這在一定程度上改變了數據倉庫使用者的工作方式。

她說:“在數據倉庫領域,我們鼓勵提出業務需求,鼓勵嚴格的數據質量要求,但是不鼓勵獨立加載數據。但是在大數據領域,這一方式得到了顛覆。”

Apache Hadoop困境

Hadoop還有其他優點。例如, MapReduce能夠以并行方式處理大數據集。根據行業分析師Philip Russom的觀點,它是一個通用執行引擎,甚至能夠處理手工編碼的代碼。

但是,如果要使用MapReduce,程序員必須能夠操作它的語言。有一些工具并未被廣泛熟悉,如Hive,它使用一種類SQL的語言(HQL)訪問數據。

Russom指出:“我曾經聽人說:‘Hive很容易學。’但是,它無法真正解決與傳統SQL工具的兼容問題。”

關心數據分析的公司還需要一些技術人員參與(如數據科學家),他們應該有能力操作Hadoop的專用工具。數據科學家一般具備博士學位,因此,他們的薪水可能很高,而且也很難招聘到。

此外,這項技術還有其他一些缺點:Eckerson甚至將Apache Hadoop描述為“乳臭未干”,而且在安全性、數據質量和元數據分類等功能上存在不足。Hopkins認為它“很難用”,“不成熟”。Russom認為這項技術肯定會有不錯的前景,但是成為主流應用還需要幾年時間。

根據eBay高級技術成員和架構師Tom Fastner的觀點,即使在eBay,其核心競爭力也不在于Hadoop,而是構成數據分析平臺的第二層技術。eBay將它基于Teradata的數據庫系統稱為Singularity,并且表示它將提供30 PB空間,而并發性低于EDW。Fastner指出,Singularity的最大應用是用戶行為分析,這個流程通常可以產生寶貴的商業洞察力。

而且,Forrester的Hopkins指出,有其他技術可以幫助企業實現優于Hadoop的大數據方案。所有這些都取決于業務需求。他說:“我們分析了大數據技術的兩個不同方面。其一是結構,另一個是延遲。”

每一個方面由低到高排列,大數據工具和技術都屬于這些范疇。例如,內存技術(如SAP HANA)可以在高度結構化數據上實現低延遲的查詢結果,而大規模并行處理(MPP)技術(包括Teradata和IBM Netezza)都可以處理高延遲的高度結構化數據。

Hopkins說,雖然Hadoop能處理多種數據類型,但由于批處理的方式,這使得它無法搭建實時環境。

專家指出,Hadoop的光環可能會慢慢消退,但現在它仍然是倍受關注的技術,它的主要支持者仍然是互聯網巨頭。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 宾川县| 瑞昌市| 呼图壁县| 翁源县| 彭山县| 朔州市| 扶绥县| 共和县| 缙云县| 惠州市| 比如县| 犍为县| 龙井市| 桂东县| 安吉县| 乌什县| 明水县| 冷水江市| 盘锦市| 剑阁县| 北京市| 金华市| 怀集县| 东方市| 沾益县| 印江| 安国市| 土默特右旗| 祁连县| 渭南市| 自治县| 延津县| 江源县| 道真| 越西县| 东宁县| 邛崃市| 泾阳县| 化隆| 定兴县| 阿巴嘎旗|