Apache已經發布了包含YARN federation ,基于HDFS路由器集合和資源估算器等新功能的Hadoop 2.9。
Hadoop軟件庫是一個框架,允許使用簡單的編程模型跨計算機集群分布式處理大型數據集。它旨在從單臺服務器擴展到數千臺機器,每臺機器提供本地計算和存儲。YARN是作業調度和集群資源管理的框架,對HDFS文件系統高可用。
YARN federation意味著可以通過聯合多個YARN子集群將單個YARN集群擴展到成千上萬個節點。所提出的方法是將一個大的(10-100k個節點)簇劃分成子簇的較小單元,每個簇具有其自己的YARN資源管理器和計算節點。系統將這些子聯合在一起,作為一個大的YARN集群出現在應用程序中,新版本還更新了YARN Web UI。
基于路由器的集合也被添加到HDFS。到目前為止,HDFS支持分區聯合,文件系統被分割成更小的子集群,但這給出了子集群拆分問題的解決方案,這意味著用戶必須連接到多個子集群并管理文件夾和文件分配各種子集群。基于路由器的聯合會添加一層負責聯合名稱空間的軟件,這意味著子集群獨立管理自己的塊池。具有與NameNode相同接口的路由器組件,并將客戶端請求轉發給正確的子集群。
資源估算器根據大部分工作(超過60%)是重復性工作的事實給出了對工作資源需求的估計,因此可以用于根據工作歷史運行自動估計工作資源需求。
這個版本的另一個改進是增加機會容器。與僅存在未分配資源的情況下在節點中調度的現有YARN容器不同,即使在該節點上的執行不能立即啟動,也可以將機會容器分派給節點管理器。容器將在該節點管理器中排隊,直到資源可用。
Hadoop 2.9的最后一個主要變化是增加了一個用于CapacityScheduler的Scheduler Queue(Re-)配置API。