Apache Hadoop的肯定不是開源分布式文件系統唯一的解決方案,近年來出現了一些hadoop的競爭對手,如HPCC等等,但在蓬勃發展的大數據存儲領域它肯定是最有名的和最流行的平臺。
雖然hadoop精于數據處理和分析和原始存儲,但Hadoop仍有其不足之處,如批量處理的延遲,而且對MapReduce的數據處理很依賴。
YARN是另一種資源的談判代表,是一個新的框架,Cloudera要求“比早期的MapReduce有更好的適用性”,因為它運行的程序,不遵守MapReduce模型。
Apache Hadoop項目管理委員會的主席和Hortonworks的創始人Arun Murthy,近日在接受采訪時表示:“簡而言之,我們嘗試在Hadoop中采用YARN不僅僅用于MapReduce的數據處理,它允許你MapReduce和Hadoop在相同的集群環境中做得更多。”
Pervasive Software公司的首席技術專家Jim Falgout在接受電話采訪時這樣形容YARN:“作為一個分布式操作系統,它有一個分布式的調度,分布式文件系統,它能運行分布的工作。”
“但早期的YARN是一個‘基本的’操作系統,你只能運行一個應用程序,”Falgout笑著說。 “這是MapReduce的。” 他補充,“YARN是Hadoop社區走向成熟的一個非常重要的部分。” 它昭示著MapReduce是偉大的,但它并不能解決所有的問題,這并非你要求的所有解決方案。
Falgout已經解決了這個課題。 “MapReduce擅長解決例如為全球網站建立索引這類問題。但是,它不是解決任何問題都最靈活有效的平臺,”他最近在網站的博客上寫下這些數據。
YARN拓展了hadoop,允許開發人員利用該平臺的屬性構建不同類型的應用程序。“”
YARN開辟了Hadoop的,允許開發人員構建不同類型的應用程序,利用該平臺的屬性。 “如果你要使用Hadoop,YARN,在MapReduce分布式操作系統上的所有的應用程序,你寫的不錯”Falgout說。 “如果Linux這樣,它走不到太遠。”
Falgout關于YARN的想法,它的小驚喜,Pervasive Software公司,總部位于得克薩斯州奧斯汀??,提供數據管理和分析產品,深入參與Hadoop的大數據。該公司的軟件的產品包括DataRush,其目的是提高并行性能的數據處理和分析任務,并快速分析數據訪問,制備,分析和報告工具,可視化工作流。
Falgout說,DataRush計劃對YARN的普適框架移植,但目前尚未宣布具體的時間表。 “我們沒有看到YARN被大面積應用在客戶的生產系統,”他補充說。 “我們知道它即將到來,所以我們將可能在下個月開始對YARN的工作。”
Cloudera公司, YARN及其CDH4分布的Hadoop,另外和已實施的早期版本,但被認為是一個alpha版本的軟件。Falgout說:“它在那里,你可以看”,“但它尚未做好萬全準備。”
YARN的實施將直接影響最終用戶,當然,但它可以提供間接的好處,使非常困難的Hadoop平臺更易于使用。 “那是Hadoop近期的大主題, Hadoop的采用令其更易使用,”Falgout說。 “得到它超越了早期那些愿意寫MapReduce代碼,并經歷過麻煩的使用者,因為他們享用了它的一項重大優勢。”
預測分析變得更快,更準確,更方便。結合大數據,它引領著一個新時代。此外,在新的,全數字化的高級分析問題的信息:項目管理辦公室在浪費錢嗎?