精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數(shù)據(jù)市場需求火爆 Hadoop 2.0即將發(fā)布

責(zé)任編輯:ylv

2012-07-02 11:40:07

摘自:網(wǎng)界網(wǎng)

隨著越來越多的公司開始使用Hadoop處理大數(shù)據(jù),因此我們預(yù)測(cè)Hadoop不久就會(huì)推出2.0版本。 如今,Apache的Hadoop技術(shù)在幫助企業(yè)管理海量數(shù)據(jù)中變得越來越關(guān)鍵。

隨著越來越多的公司開始使用Hadoop處理大數(shù)據(jù),因此我們預(yù)測(cè)Hadoop不久就會(huì)推出2.0版本。

如今,Apache的Hadoop技術(shù)在幫助企業(yè)管理海量數(shù)據(jù)中變得越來越關(guān)鍵。包括NASA、推特和Netflix等用戶對(duì)這一開源分布式計(jì)算平臺(tái)的依賴性越來越大。

Hadoop作為一種處理大數(shù)據(jù)的機(jī)制已經(jīng)獲得了越來越多的支持。因?yàn)槠髽I(yè)計(jì)算機(jī)系統(tǒng)中的數(shù)據(jù)量正在快速增長,企業(yè)開始嘗試從這些海量數(shù)據(jù)中獲得派生價(jià)值。由于認(rèn)識(shí)到了Hadoop的潛力,用戶開始在使用現(xiàn)有Hadoop平臺(tái)技術(shù)的同時(shí),積極研發(fā)自己的技術(shù)以對(duì)Hadoop堆棧進(jìn)行補(bǔ)充。

Hadoop的企業(yè)使用現(xiàn)狀與未來

NASA希望Hadoop處理眾多項(xiàng)目中的龐大數(shù)據(jù),如SKA(平方千米陣列)星空?qǐng)D像。這些圖像在未來十年內(nèi)的生成速度將達(dá)到700TBps。NASA高級(jí)計(jì)算機(jī)專家Chris Mattmann稱,包括Hadoop在內(nèi)的數(shù)據(jù)系統(tǒng)和Apache OODT 等技術(shù)將用于應(yīng)對(duì)這些海量數(shù)據(jù)負(fù)載,

推特的數(shù)據(jù)專家Oscar Boykin稱:“推特是Hadoop的一個(gè)大客戶。所有(向用戶提供定制化推薦的)相關(guān)產(chǎn)品都在一定程度上與Hadoop進(jìn)行著互動(dòng)。”公司使用Hadoop的時(shí)間已經(jīng)有四年了,并且研發(fā)了Scalding。Scalding為一款Scala庫,旨在讓編寫Hadoop MapReduce的工作變得更容易。該產(chǎn)品建立在Cascading Java庫的頂層,旨在對(duì)Hadoop的復(fù)雜性進(jìn)行概括。

Hadoop的子項(xiàng)目包括MapReduce、HDFS(Hadoop分布式文件系統(tǒng))和Common。MapReduce為用于處理計(jì)算集群上的大型數(shù)據(jù)集的軟件框架,HDFS提供了對(duì)應(yīng)用數(shù)據(jù)的高速訪問,Common則為支持其它Hadoop子項(xiàng)目提供了一些實(shí)用工具。電影租賃服務(wù)商N(yùn)etflix已經(jīng)開始使用用于配置管理的Hadoop相關(guān)技術(shù)Apache ZooKeeper。Netflix 高級(jí)平臺(tái)工程師Jordan Zimmerman稱:“我們?cè)诜植际芥i、部分隊(duì)列排列和領(lǐng)導(dǎo)人選舉等所有類型的工作中都使用了這種技術(shù),以優(yōu)化服務(wù)活動(dòng)。我們針對(duì)ZooKeeper開發(fā)了一個(gè)開源客戶端,我們稱其為Curator。這個(gè)客戶端作為一個(gè)開發(fā)者庫與ZooKeeper相連。”

Tagged 高級(jí)數(shù)據(jù)工程師Rich McKinley 稱,Tagged社交網(wǎng)絡(luò)正在使用Hadoop技術(shù)用于數(shù)據(jù)分析,處理每天所生成的近0.5個(gè)太字節(jié)的新數(shù)據(jù)。Hadoop還正在被用于Greenplum數(shù)據(jù)庫容量之外的任務(wù)中。目前Tagged仍然在使用Greenplum數(shù)據(jù)庫,McKinley稱:“我們希望僅通過擴(kuò)展讓Hadoop做更多的工作。”

盡管大家都在稱贊Hadoop,但是部分用戶認(rèn)為仍然有一些問題需要解決,如在可靠性和工作追蹤上的不足。Tagged的McKinley指出了在延時(shí)上存在的問題。“獲得數(shù)據(jù)的時(shí)間應(yīng)當(dāng)非常快,然而每個(gè)人的最大抱怨是其進(jìn)行查詢時(shí)的延遲太高。”Tagged目前正在使用另一個(gè)Hadoop 派生項(xiàng)目Apache Hive進(jìn)行查詢。他稱“Hadoop需要花上數(shù)分鐘才能給出結(jié)果,而Greenplum給出結(jié)果只需要數(shù)秒鐘。但是與Greenplum相比,Hadoop更為便宜。”

Hadoop 2.0具備哪些特點(diǎn)?

Hadoop 1.0在2011年被推出,其擁有通過Kerberos(麻省理工學(xué)院開發(fā)的安全認(rèn)證系統(tǒng))的高強(qiáng)度安全認(rèn)證,支持HBase數(shù)據(jù)庫。對(duì)于即將推出的新版本,HortonWorks首席技術(shù)官Eric Baldeschwieler提供了一個(gè)包括2.0版本在內(nèi)的Hadoop路線圖。(HortonWorks公司是Apache Hadoop的資助者之一)2.0版本在今年年初已經(jīng)進(jìn)入了測(cè)試階段。Baldeschwieler稱:“MapReduce層進(jìn)行了部分重寫,所有的存儲(chǔ)邏輯和HDFS都進(jìn)行了徹底重寫。”

Hadoop 2.0重點(diǎn)放在了利用Yarn(下一代MapReduce)和眾多功能進(jìn)行擴(kuò)展與創(chuàng)新方面。Yarn將允許用戶添加自己的計(jì)算模型,這樣一來,用戶就不用必須使用MapReduce了。Baldeschwieler稱:“我們希望社區(qū)能夠發(fā)現(xiàn)更多使用Hadoop的新方法。所期待的用法包括實(shí)時(shí)應(yīng)用和機(jī)器學(xué)習(xí)算法。可擴(kuò)展性、插接式存儲(chǔ)也已經(jīng)被規(guī)劃。”

永遠(yuǎn)在線功能將讓Hadoop 2.0能夠讓集群不再出現(xiàn)宕機(jī)。擴(kuò)展存儲(chǔ)也已經(jīng)被規(guī)劃。Hadoop 2.0的公布發(fā)行版本預(yù)計(jì)將在今年被推出 

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 浦北县| 定日县| 易门县| 化州市| 岑巩县| 柘荣县| 永靖县| 洮南市| 漳平市| 武宣县| 南部县| 永平县| 建水县| 郴州市| 北碚区| 禄劝| 河北区| 河东区| 大渡口区| 亚东县| 阳春市| 黄骅市| 获嘉县| 宾川县| 鹿泉市| 合肥市| 遵义县| 儋州市| 梓潼县| 云林县| 行唐县| 瓦房店市| 确山县| 镇平县| 泰兴市| 玛纳斯县| 安阳县| 府谷县| 宝坻区| 江山市| 扎囊县|