精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

一篇文章讀懂大數(shù)據(jù)的黃色小象幫手––Hadoop

責(zé)任編輯:editor004

2015-03-13 13:23:40

摘自:中國大數(shù)據(jù)

繼云計算之后,大數(shù)據(jù)(Big Data)接棒成為最熱門的科技潮字,和大數(shù)據(jù)有關(guān)的技術(shù)和科技接二連三成為科技圈注目的焦點。Hadoop 不但讓你儲存超過一個伺服器所能容納的超大檔案,還能同時儲存、處理、分析幾千幾萬份這種超大檔案,所以每每提到大數(shù)據(jù)

繼云計算之后,大數(shù)據(jù)(Big Data)接棒成為最熱門的科技潮字,和大數(shù)據(jù)有關(guān)的技術(shù)和科技接二連三成為科技圈注目的焦點。如果你也關(guān)注云端跟大數(shù)據(jù)的資訊,Hadoop 這個字出現(xiàn)頻率一定挺高的,這個黃色小象 Logo 也應(yīng)該經(jīng)常亮相。

Hadoop

究竟 Hadoop 是什么?能夠用來解決什么問題?又為什么重要?比起解釋一大堆技術(shù)上的細節(jié),倒不如把重點放在 Hadoop 處理巨量資料的角度切入了解,看 Hadoop 能夠帶來什么好處,同時也從這個方向反過來理解大數(shù)據(jù)。

Hadoop 簡史:黃色小象的由來

Hadoop 的雛形 Nutch 最初是由 Doug Cutting 和 Mike Cafarella 針對網(wǎng)頁相關(guān)的資料搜尋而開發(fā),2006 年 Doug Cutting 進入 Yahoo 后成立了專業(yè)的團隊繼續(xù)研究發(fā)展這項技術(shù),正式命名為 Hadoop。

Hadoop 這個名稱并不代表任何英文字匯或者縮寫代號,「Hadoop」來自于 Doug Cutting 兒子的一個黃色大象填充玩具1,主要塬因是開發(fā)過程中他需要為這套軟體提供一個代號方便溝通,而 Hadoop 這個名字發(fā)音簡單拼字容易,而且毫無意義、也沒有在任何地方使用過,因此雀屏中選,黃色小象也因而成為 Hadoop 的標(biāo)誌。

值得一提的是,在 Hadoop 之后所發(fā)展的幾個相關(guān)軟件和模組也都參考了這樣的命名方式,名稱不會與主要功能實際相關(guān),而是採用與大象或其他動物有關(guān)的名稱作為其開發(fā)代號,像是 Pig、Hive、ZooKeeper 等等。

什么是 Hadoop?

首先,想像有個檔案大小超過 PC 能夠儲存的容量,那便無法儲存在你的電腦裡,對吧?

Hadoop 不但讓你儲存超過一個伺服器所能容納的超大檔案,還能同時儲存、處理、分析幾千幾萬份這種超大檔案,所以每每提到大數(shù)據(jù),便會提到 Hadoop 這套技術(shù)。

簡單來說,Hadoop 是一個能夠儲存并管理大量資料的云端平臺,為 Apache 軟體基金會底下的一個開放塬始碼、社群基礎(chǔ)、而且完全免費的軟體,被各種組織和產(chǎn)業(yè)廣為採用,非常受歡迎。

然而要懂 Hadoop,你必須先了解它最主要的兩項功能:

Hadoop 如何儲存資料(Store)

Hadoop 怎么處理資料(Process)

分散式檔案系統(tǒng) HDFS

Hadoop 是一個叢集系統(tǒng)(cluster system),也就是由單一伺服器擴充到數(shù)以千計的機器,整合應(yīng)用起來像是一臺超級電腦。而資料存放在這個叢集中的方式則是採用 HDFS 分散式檔案系統(tǒng)(Hadoop Distributed File System)。

HDFS 的設(shè)計概念是這樣的,叢集系統(tǒng)中有數(shù)以千計的節(jié)點用來存放資料,如果把一份檔案想成一份藏寶圖,機器中會有一個機器老大(Master Node)跟其他機器小弟(Slave/Worker Node),為了妥善保管藏寶圖,先將它分割成數(shù)小塊(block),通常每小塊的大小是 64 MB,而且把每小塊拷貝成叁份(Data replication),再將這些小塊分散給小弟們保管。機器小弟們用「DataNode」這個程式來放藏寶圖,機器老大則用「NameNode」這個程式來監(jiān)視所有小弟們藏寶圖的存放狀態(tài)。

如果老大的程式 NameNode 發(fā)現(xiàn)有哪個 DataNode 上的藏寶圖遺失或遭到損壞(例如某位小弟不幸陣亡,順帶藏寶圖也丟了),就會尋找其他 DataNode 上的副本(Replica)進行復(fù)製,保持每小塊的藏寶圖在整個系統(tǒng)都有叁份的狀態(tài),這樣便萬無一失。

透過 HDFS,Hadoop 能夠儲存上看 TB(Tera Bytes)甚至 PB(Peta Bytes)等級的巨量資料,也不用擔(dān)心單一檔案的大小超過一個磁碟區(qū)的大小,而且也不用擔(dān)心某個機器損壞導(dǎo)致資料遺失。

來看看 Yahoo 的 Hadoop cluster 系統(tǒng):

MapReduce 平行運算架構(gòu)

上一段提到,HDFS 將資料分散儲存在 Hadoop 電腦叢集中的數(shù)個機器裡,現(xiàn)在我們要談?wù)?Hadoop 如何用 MapReduce 這套技術(shù)處理這些節(jié)點上的資料。

在函數(shù)程式設(shè)計(Functional programming)3中很早就有了 Map(映射)和 Reduce(歸納)的觀念,類似于演算法中個別擊破(Divide and Conquer)的作法,也就是將問題分解成很多個小問題之后再做總和。

MapReduce 顧名思義是以 Map 跟 Reduce 為基礎(chǔ)的應(yīng)用程式。一般我們進行資料分析處理時,是將整個檔案丟進程式軟體中做運算出結(jié)果,而面對巨量資料時,Hadoop 的做法是採用分散式計算的技術(shù)處理各節(jié)點上的資料。

在各個節(jié)點上處理資料片段,把工作分散、分佈出去的這個階段叫做 Mapping;接下來把各節(jié)點運算出的結(jié)果直接傳送回來歸納整合,這個階段就叫做 Reducing。這樣多管齊下、在上千臺機器上平行處理巨量資料,可以大大節(jié)省資料處理的時間。

黃色小象以及小象的朋友們

總和來看,Hadoop 透過 HDFS 和 MapReduce 這兩項核心功能,解決了檔案存放的問題、解決了系統(tǒng)擴張的問題、解決了系統(tǒng)備份的問題、解決了資料處理的問題,非常適合應(yīng)用于大數(shù)據(jù)儲存和大數(shù)據(jù)分析,因此被廣泛接受成為大數(shù)據(jù)的主流技術(shù)。

當(dāng)然 Hadoop 并沒有解決所有巨量資料帶來的難題,所以許多與 Hadoop 相關(guān)的技術(shù)被開發(fā)來應(yīng)付巨量資料的其他需求4。像是用來處理資料的 Script 語言「Pig」、類似 SQL 語法查詢功能的「Hive」、專門用在 Hadoop 上的資料庫系統(tǒng)「HBase」等。

原文鏈接:http://www.thebigdata.cn/Hadoop/13701.html

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 沧源| 津市市| 江门市| 静海县| 通江县| 旅游| 长子县| 汝州市| 苍梧县| 米易县| 瑞昌市| 高雄县| 湖北省| 怀宁县| 兴仁县| 仙居县| 天峻县| 吉安县| 富顺县| 东乡| 涿鹿县| 东港市| 霍林郭勒市| 博客| 台州市| 保山市| 斗六市| 修文县| 资阳市| 光山县| 密山市| 洛隆县| 江都市| 洛浦县| 大埔县| 左云县| 巴林右旗| 定边县| 凤山市| 徐汇区| 北安市|