這篇文章主要分享從技術(shù)角度思考hadoop到底是什么?,通過本文您將了解到hadoop,什么的相關(guān)內(nèi)容,下面開始文章正文。
從技術(shù)角度看hadoop
那么我說一下什么是hadoop: 適合海量數(shù)據(jù)的分布式存儲與計算平臺
什么是海量數(shù)據(jù)呢?一般情況下1T以上的我們稱之為大數(shù)據(jù),但是它大不一定是大數(shù)據(jù),我們還要看它是什么樣的架構(gòu)方式。
hadoop的核心項目:
HDFS (分布式文件系統(tǒng)),它負(fù)責(zé)存儲。
MAPreduced(平行計算框架),這是我們需要好好研究的,(核心問題)
那么何為分布式呢?大家直到“分布”的意思吧,就是一片,我的理解是文件系統(tǒng)分布在不同的計算機上。
那么什么是平行計算呢?利用一定的算法,讓驚醒計算的代碼在不同的甲酸機上同時進(jìn)行程序的一部分,然后把美哦個計算機的結(jié)構(gòu)收集有規(guī)律的整合,然后得到我們想要的運算結(jié)果
那么介紹一下HDFS的主從架構(gòu)
主節(jié)點只有一個:namenode
從節(jié)點有好多:datanodes
namenode負(fù)責(zé):(負(fù)責(zé)管理)
接受用戶操作請求
維護(hù)文件愛你系統(tǒng)的目錄結(jié)構(gòu)
管理文件與block之間的關(guān)系,block與datanode之間的關(guān)系
datanode負(fù)責(zé):(負(fù)責(zé)具體的執(zhí)行)
文件被分為block存儲在磁盤上
為保證數(shù)據(jù)安全文件有很多副本,副本的作用,副本自動切換當(dāng)出現(xiàn)問題的時候,很好的一個作用
MapReduce的主從架構(gòu)
主節(jié)點:只有一個JobTrackcer
從節(jié)點:有多個TaskTrackers
JobTrackcer負(fù)責(zé):
手機客戶提交的計算任務(wù)
把計算任務(wù)分給TaskTrackers執(zhí)行
監(jiān)控TaskTrackers的執(zhí)行情況
TaskTrackers負(fù)責(zé)
執(zhí)行JobTrackcer分配的計算任務(wù)
hadoop的優(yōu)點: