精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

使用Hadoop還是Spark到底怎么決斷?

責(zé)任編輯:editor005

作者:李祥敬

2016-03-08 14:17:16

摘自:天極網(wǎng)信息化頻道

談到大數(shù)據(jù),相信大家對(duì)Hadoop和Apache Spark這兩個(gè)名字并不陌生。其實(shí),Hadoop與Spark不存在沖突,因?yàn)镾park是運(yùn)行于Hadoop頂層的內(nèi)存處理方案,也就是說(shuō)目前部署Spark的企業(yè),其實(shí)都在現(xiàn)有的Hadoop集群中運(yùn)行Spark。

談到大數(shù)據(jù),相信大家對(duì)Hadoop和Apache Spark這兩個(gè)名字并不陌生。或許我們可以這樣說(shuō),Hadoop是大數(shù)據(jù)的啟蒙,借助Hadoop讓企業(yè)步入了大數(shù)據(jù)時(shí)代。而最近幾年,Spark的風(fēng)頭似乎超越了Hadoop。而且網(wǎng)上有一種聲音就是Spark將會(huì)取代Hadoop成為大數(shù)據(jù)的統(tǒng)治者,事實(shí)上是這樣么?且聽(tīng)筆者娓娓道來(lái)。

使用Hadoop還是Spark到底怎么決斷?

其實(shí),Hadoop與Spark不存在沖突,因?yàn)镾park是運(yùn)行于Hadoop頂層的內(nèi)存處理方案,也就是說(shuō)目前部署Spark的企業(yè),其實(shí)都在現(xiàn)有的Hadoop集群中運(yùn)行Spark。主流的Hadoop發(fā)行版本提供商比如Cloudera和Hortonworks將Spark列為他們Hadoop發(fā)行的一部分。

我們可以說(shuō)Hadoop和Spark均是大數(shù)據(jù)框架,都提供了執(zhí)行常見(jiàn)大數(shù)據(jù)任務(wù)的工具。雖然Spark在某些應(yīng)用場(chǎng)景下比Hadoop,但是Spark本身沒(méi)有一個(gè)分布式存儲(chǔ)系統(tǒng),而是依賴于Hadoop的HDFS。Spark的高級(jí)分析應(yīng)用也是依賴于HDFS存儲(chǔ)數(shù)據(jù)。

與Hadoop相比,Spark真正的優(yōu)勢(shì)在于速度。因?yàn)镾park的大部分操作都是在內(nèi)存中,而Hadoop的MapReduce系統(tǒng)會(huì)在每次操作之后將所有數(shù)據(jù)寫(xiě)回到物理存儲(chǔ)介質(zhì)上。內(nèi)存比硬盤(pán)的讀取速度快上了N倍,所以Spark在某些計(jì)算類(lèi)型上比Hadoop快上數(shù)倍。

Hadoop和Spark不存在競(jìng)爭(zhēng)關(guān)系

筆者在前面的論述中,不斷強(qiáng)調(diào)是某些計(jì)算類(lèi)型和應(yīng)用場(chǎng)景,Spark比Hadoop快。其實(shí)Hadoop和Spark是針對(duì)不同的應(yīng)用場(chǎng)景。Hadoop將巨大的數(shù)據(jù)集分派到一個(gè)由普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)進(jìn)行存儲(chǔ)。同時(shí),Hadoop還會(huì)索引和跟蹤這些數(shù)據(jù),讓大數(shù)據(jù)處理和分析效率達(dá)到前所未有的高度。

而Spark則是那么一個(gè)專門(mén)用來(lái)對(duì)那些分布式存儲(chǔ)的大數(shù)據(jù)進(jìn)行處理的工具,它并不會(huì)進(jìn)行分布式數(shù)據(jù)的存儲(chǔ)。Spark只是專注于計(jì)算,而不承擔(dān)數(shù)據(jù)存儲(chǔ)功能,它需要第三方存儲(chǔ)的支持。

 

Hadoop包括兩個(gè)最重要的組件。第一個(gè)是大規(guī)模儲(chǔ)存系統(tǒng),叫做Hadoop Distributed File System(HDFS)。第二個(gè)是一個(gè)計(jì)算引擎,叫做MapReduce,它能在儲(chǔ)存在HDFS上的數(shù)據(jù)頂層運(yùn)行大規(guī)模并行程序。

所以我們看到Hadoop包含了存儲(chǔ)和計(jì)算兩個(gè)組件,而這個(gè)MapReduce計(jì)算組件其實(shí)可以被Spark替換的。Spark是一個(gè)基于內(nèi)存計(jì)算的開(kāi)源的集群計(jì)算系統(tǒng),目的是讓數(shù)據(jù)分析更加快速。

所以看明白了吧,Spark相當(dāng)于是對(duì)Hadoop計(jì)算組件的改進(jìn)。實(shí)際上它是對(duì)Hadoop的補(bǔ)充,可以在Hadoop文件系統(tǒng)中并行運(yùn)行。因?yàn)镾park充分利用內(nèi)存進(jìn)行緩存,所以比較合適做迭代式的運(yùn)算。

當(dāng)然,Spark也不是非要依附在Hadoop身上才能生存。它必須和其他的分布式文件系統(tǒng)進(jìn)行集成才能運(yùn)作。這里我們可以選擇Hadoop的HDFS,也可以選擇其他的基于云的數(shù)據(jù)系統(tǒng)平臺(tái)。但Spark默認(rèn)來(lái)說(shuō)還是被用在Hadoop上面的,畢竟,大家都認(rèn)為它們的結(jié)合是最好的。

使用Hadoop還是Spark到底怎么決斷?

Spark對(duì)于Hadoop來(lái)說(shuō)不是挑戰(zhàn),也不是來(lái)取代Hadoop的。相反,Hadoop是Spark成長(zhǎng)發(fā)展的基礎(chǔ)。Hadoop和Spark都是Apache基金會(huì)下的開(kāi)源項(xiàng)目,所以不存在商業(yè)競(jìng)爭(zhēng)。而基于Hadoop和Spark提供大數(shù)據(jù)支持的商業(yè)公司往往同時(shí)提供兩種服務(wù)。例如,Cloudera就既提供Spark服務(wù)也提供Hadoop服務(wù)。

目前基于Hadoop和Spark的大數(shù)據(jù)生態(tài)日趨完善,人們對(duì)于Hadoop和Spark的認(rèn)識(shí)也更加完整。Hadoop確立了大數(shù)據(jù)的處理框架,而Spark則是對(duì)Hadoop框架的改進(jìn),畢竟大數(shù)據(jù)是不斷發(fā)展的,而計(jì)算模型也需要與時(shí)俱進(jìn),計(jì)算模型的不斷更新才能適應(yīng)企業(yè)數(shù)據(jù)發(fā)展的新特點(diǎn)。Spark引入了內(nèi)存計(jì)算、機(jī)器學(xué)習(xí)等重要計(jì)算框架,豐富了企業(yè)大數(shù)據(jù)的選擇。

結(jié)語(yǔ)

Hadoop和Spark都是Apache基金會(huì)下的開(kāi)源項(xiàng)目,兩者共同為企業(yè)提供了大數(shù)據(jù)的處理框架,他們之間不存在你死我活的問(wèn)題,對(duì)于企業(yè)來(lái)說(shuō)也不存在孰優(yōu)孰略,只有適合企業(yè)自身需求之說(shuō)。所以企業(yè)不需要糾結(jié)是采用Hadoop還是Spark,而應(yīng)該根據(jù)企業(yè)自身的應(yīng)用需求來(lái)決定。

隨著企業(yè)在大數(shù)據(jù)方面的發(fā)展,新的問(wèn)題也會(huì)出現(xiàn),這樣也需要新的大數(shù)據(jù)計(jì)算框架的出現(xiàn),所以可以預(yù)見(jiàn)的是未來(lái)新的計(jì)算礦建也會(huì)出現(xiàn),而不是局限于Hadoop和Spark。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 深圳市| 微山县| 平舆县| 宁明县| 平乐县| 福泉市| 镇康县| 开原市| 柏乡县| 绍兴县| 夹江县| 嘉黎县| 铜梁县| 资阳市| 五指山市| 大理市| 松潘县| 永仁县| 水富县| 泸定县| 偃师市| 长春市| 乌鲁木齐市| 垣曲县| 霸州市| 麟游县| 山东省| 龙陵县| 科技| 深圳市| 囊谦县| 翁牛特旗| 襄城县| 揭西县| 若尔盖县| 南岸区| 景德镇市| 长海县| 米易县| 敖汉旗| 漯河市|