精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

什么是Hadoop,怎樣學習Hadoop

責任編輯:editor005 |來源:企業網D1Net  2017-03-03 14:16:42 本文摘自:bigdata.evget.com

hadoop學習

Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統中的數據。

Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。一句話來講Hadoop就是存儲加計算。

Hadoop這個名字不是一個縮寫,而是一個虛構的名字。該項目的創建者,Doug Cutting解釋Hadoop的得名 :“這個名字是我孩子給一個棕黃色的大象玩具命名的。

Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點:

1、高可靠性 Hadoop按位存儲和處理數據的能力值得人們信賴。

2、高擴展性 Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。

3、高效性 Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。

4、高容錯性 Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。

5、低成本 與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。

Hadoop帶有用Java語言編寫的框架,因此運行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。

Hadoop大數據處理的意義

Hadoop得以在大數據處理應用中廣泛應用得益于其自身在數據提取、變形和加載(ETL)方面上的天然優勢。Hadoop的分布式架構,將大數據處理引擎盡可能的靠近存儲,對例如像ETL這樣的批處理操作相對合適,因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapReduce功能實現了將單個任務打碎,并將碎片任務(Map)發送到多個節點上,之后再以單個數據集的形式加載(Reduce)到數據倉庫里。

Hadoop由以下幾個項目構成

hadoop學習

1、Hadoop Common :Hadoop體系最底層的一個模塊,為Hadoop各子項目提供各種工具,如:配置文件和日志操作等。

2、HDFS:分布式文件系統,提供高吞吐量的應用程序數據訪問,對外部客戶機而言,HDFS 就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件,等等。但是 HDFS 的架構是基于一組特定的節點構建的(參見圖 1),這是由它自身的特點決定的。這些節點包括 NameNode(僅一個),它在 HDFS 內部提供元數據服務;DataNode,它為 HDFS 提供存儲塊。由于僅存在一個 NameNode,因此這是 HDFS 的一個缺點(單點失敗)。

存儲在 HDFS 中的文件被分成塊,然后將這些塊復制到多個計算機中(DataNode)。這與傳統的 RAID 架構大不相同。塊的大小(通常為 64MB)和復制的塊數量在創建文件時由客戶機決定。NameNode 可以控制所有文件操作。HDFS 內部的所有通信都基于標準的 TCP/IP 協議。

3、MapReduce :一個分布式海量數據處理的軟件框架集計算集群。

4、Avro :doug cutting主持的RPC項目,主要負責數據的序列化。有點類似Google的protobuf和Facebook的thrift。avro用來做以后hadoop的RPC,使hadoop的RPC模塊通信速度更快、數據結構更緊湊。

5、Hive :類似CloudBase,也是基于hadoop分布式計算平臺上的提供data warehouse的sql功能的一套軟件。使得存儲在hadoop里面的海量數據的匯總,即席查詢簡單化。hive提供了一套QL的查詢語言,以sql為基礎,使用起來很方便。

6、HBase :基于Hadoop Distributed File System,是一個開源的,基于列存儲模型的可擴展的分布式數據庫,支持大型表的存儲結構化數據。

7、Pig :是一個并行計算的高級的數據流語言和執行框架 ,SQL-like語言,是在MapReduce上構建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。

8、ZooKeeper :Google的Chubby一個開源的實現。它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

9、Chukwa :一個管理大型分布式系統的數據采集系統 由yahoo貢獻。

10、Cassandra :無單點故障的可擴展的多主數據庫 。

11、Mahout :一個可擴展的機器學習和數據挖掘庫 。

Hadoop 設計之初的目標就定位于高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優點,才使得Hadoop 一出現就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。到目前為止,Hadoop 技術在互聯網領域已經得到了廣泛的運用,如Yahoo、Facebook、Adobe、IBM、百度、阿里巴巴、騰訊、華為、中國移動等。

關于怎樣學習hadoop,首先要了解并且深刻認識什么是hadoop,它的原理以及作用是什么,包括基本構成是什么,分別有什么作用,當然,在學習之前,至少要掌握一門基礎語言,這樣在學習起來才會事半功倍,因為目前hadoop在國內發展時間不長,有興趣的朋友可以先找一些書籍來學習,打好基本功,本站也將持續更新有關hadoop的學習方法以及資料資源共享,希望我們一起努力,有好的方法和建議歡迎交流。

關鍵字:Hadoop存儲塊文件操作

本文摘自:bigdata.evget.com

x 什么是Hadoop,怎樣學習Hadoop 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

什么是Hadoop,怎樣學習Hadoop

責任編輯:editor005 |來源:企業網D1Net  2017-03-03 14:16:42 本文摘自:bigdata.evget.com

hadoop學習

Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統中的數據。

Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。一句話來講Hadoop就是存儲加計算。

Hadoop這個名字不是一個縮寫,而是一個虛構的名字。該項目的創建者,Doug Cutting解釋Hadoop的得名 :“這個名字是我孩子給一個棕黃色的大象玩具命名的。

Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點:

1、高可靠性 Hadoop按位存儲和處理數據的能力值得人們信賴。

2、高擴展性 Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。

3、高效性 Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。

4、高容錯性 Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。

5、低成本 與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。

Hadoop帶有用Java語言編寫的框架,因此運行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。

Hadoop大數據處理的意義

Hadoop得以在大數據處理應用中廣泛應用得益于其自身在數據提取、變形和加載(ETL)方面上的天然優勢。Hadoop的分布式架構,將大數據處理引擎盡可能的靠近存儲,對例如像ETL這樣的批處理操作相對合適,因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapReduce功能實現了將單個任務打碎,并將碎片任務(Map)發送到多個節點上,之后再以單個數據集的形式加載(Reduce)到數據倉庫里。

Hadoop由以下幾個項目構成

hadoop學習

1、Hadoop Common :Hadoop體系最底層的一個模塊,為Hadoop各子項目提供各種工具,如:配置文件和日志操作等。

2、HDFS:分布式文件系統,提供高吞吐量的應用程序數據訪問,對外部客戶機而言,HDFS 就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件,等等。但是 HDFS 的架構是基于一組特定的節點構建的(參見圖 1),這是由它自身的特點決定的。這些節點包括 NameNode(僅一個),它在 HDFS 內部提供元數據服務;DataNode,它為 HDFS 提供存儲塊。由于僅存在一個 NameNode,因此這是 HDFS 的一個缺點(單點失敗)。

存儲在 HDFS 中的文件被分成塊,然后將這些塊復制到多個計算機中(DataNode)。這與傳統的 RAID 架構大不相同。塊的大小(通常為 64MB)和復制的塊數量在創建文件時由客戶機決定。NameNode 可以控制所有文件操作。HDFS 內部的所有通信都基于標準的 TCP/IP 協議。

3、MapReduce :一個分布式海量數據處理的軟件框架集計算集群。

4、Avro :doug cutting主持的RPC項目,主要負責數據的序列化。有點類似Google的protobuf和Facebook的thrift。avro用來做以后hadoop的RPC,使hadoop的RPC模塊通信速度更快、數據結構更緊湊。

5、Hive :類似CloudBase,也是基于hadoop分布式計算平臺上的提供data warehouse的sql功能的一套軟件。使得存儲在hadoop里面的海量數據的匯總,即席查詢簡單化。hive提供了一套QL的查詢語言,以sql為基礎,使用起來很方便。

6、HBase :基于Hadoop Distributed File System,是一個開源的,基于列存儲模型的可擴展的分布式數據庫,支持大型表的存儲結構化數據。

7、Pig :是一個并行計算的高級的數據流語言和執行框架 ,SQL-like語言,是在MapReduce上構建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。

8、ZooKeeper :Google的Chubby一個開源的實現。它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

9、Chukwa :一個管理大型分布式系統的數據采集系統 由yahoo貢獻。

10、Cassandra :無單點故障的可擴展的多主數據庫 。

11、Mahout :一個可擴展的機器學習和數據挖掘庫 。

Hadoop 設計之初的目標就定位于高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優點,才使得Hadoop 一出現就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。到目前為止,Hadoop 技術在互聯網領域已經得到了廣泛的運用,如Yahoo、Facebook、Adobe、IBM、百度、阿里巴巴、騰訊、華為、中國移動等。

關于怎樣學習hadoop,首先要了解并且深刻認識什么是hadoop,它的原理以及作用是什么,包括基本構成是什么,分別有什么作用,當然,在學習之前,至少要掌握一門基礎語言,這樣在學習起來才會事半功倍,因為目前hadoop在國內發展時間不長,有興趣的朋友可以先找一些書籍來學習,打好基本功,本站也將持續更新有關hadoop的學習方法以及資料資源共享,希望我們一起努力,有好的方法和建議歡迎交流。

關鍵字:Hadoop存儲塊文件操作

本文摘自:bigdata.evget.com

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 张家港市| 宁武县| 山东| 嘉鱼县| 海林市| 定日县| 望奎县| 资阳市| 龙里县| 上思县| 天水市| 长岭县| 广州市| 玉山县| 东乡| 平南县| 资讯 | 西宁市| 巴里| 靖安县| 中宁县| 翁牛特旗| 仙桃市| 富平县| 香港| 临漳县| 灵璧县| 涡阳县| 利津县| 安义县| 乐清市| 大城县| 天水市| 大名县| 思茅市| 张家港市| 安岳县| 汾阳市| 宜兴市| 石城县| 沛县|