阿帕奇軟件基金會(Apache Software Foundation)在周三公布了其最新版本的開源數據處理程序Hadoop 2。新版本可同時運行多個程序,以便用戶能夠以超級計算速度迅捷高效地用多種方式處理數據。
阿帕奇Hadoop為一種架構,允許在計算機集群間使用簡單的編程模型分布式處理大型數據集。這一架構使得企業能夠以更為高效、更為合理的費效比存儲、處理、管理和分析每天新生成的和所收集到的數據。
目前Hadoop已經部署至全球眾多公司當中,其中包括亞馬遜網絡服務(AWS)、AOL、蘋果、易趣、Facebook、Netflix和惠普等知名公司。
在周三推出的該平臺最新版本增加了大量的新組件,歷時四年多打造。其中最值得關注的是,新增了YARN。YARN(Yet Another Resource Negotiator,另一種資源協調者)為Hadoop中的MapReduce的后繼產品。新版本將主要功能分成兩個獨立的守護進程中,其中一個負責資源管理,另一個負責任務安排和監控。
阿帕奇軟件基金會在發布會上稱,YARN位于HDFS(Hadoop分布式文件系統)的頂層,作為針對大數據應用的大型分布式操作系統,以便能夠同時運行多個應用,使其在整個生命周期中更為高效地為數據提供支持。Hadoop 2和YARN使用戶能夠在穩定的Hadoop生態系統基礎部分中混合批處理、交互和實時工作負載。
該基金會還表示,YARN為MapReduce的第二版(Version 2),其API保持了與上一版本的兼容。針對MapReduce 編寫的應用也可在YARN上運行,無需重新編譯。
阿帕奇軟件基金會稱,目前有超過12個阿帕奇項目整合了Hadoop,未來還將有十多個項目將整合Hadoop。
Hadoop 2通用版(GA)與阿帕奇軟件基金會在6月份推出的預發行版一致,其中也包括了YARN。阿帕奇Hadoop 2將會根據阿帕奇許可證v2.0版推出。