精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

關于Spark 那些必須要知道的事

責任編輯:editor008

2014-08-14 09:46:32

摘自:中關村在線

隨著大數(shù)據(jù)技術的深入應用,人們對Spark的關注度也在持續(xù)升溫,Spark是一個基于內存計算的開源集群計算系統(tǒng),目的是更快速的進行數(shù)據(jù)分析。Spark由加州伯克利大學AMP實驗室Matei為主的小團隊使用Scala開發(fā)開發(fā)

隨著大數(shù)據(jù)技術的深入應用,人們對Spark的關注度也在持續(xù)升溫,Spark是一個基于內存計算的開源集群計算系統(tǒng),目的是更快速的進行數(shù)據(jù)分析。Spark由加州伯克利大學AMP實驗室Matei為主的小團隊使用Scala開發(fā)開發(fā),其核心部分的代碼只有63個Scala文件,非常輕量級。Spark 提供了與Hadoop 相似的開源集群計算環(huán)境,但基于內存和迭代優(yōu)化的設計,Spark 在某些工作負載表現(xiàn)更優(yōu)秀。

在2014上半年,Spark開源生態(tài)系統(tǒng)得到了大幅增長,已成為大數(shù)據(jù)領域最活躍的開源項目之一,當下已活躍在Hortonworks、IBM、Cloudera、MapR和Pivotal等眾多知名大數(shù)據(jù)公司。那么Spark究竟以什么吸引了如此多的關注,這里是6個總結。

1. 輕量級快速處理。著眼大數(shù)據(jù)處理,速度往往被置于第一位,我們經常尋找能盡快處理我們數(shù)據(jù)的工具。Spark允許Hadoop集群中的應用程序在內存中以100倍的速度運行,即使在磁盤上運行也能快10倍。Spark通過減少磁盤IO來達到性能提升,它們將中間處理數(shù)據(jù)全部放到了內存中。

Spark使用了RDD(Resilient Distributed Dataset)的理念,這允許它可以透明的內存中存儲數(shù)據(jù),只在需要時才持久化到磁盤。這種做法大大的減少了數(shù)據(jù)處理過程中磁盤的讀寫,大幅度的降低了所需時間。

2. 易于使用,Spark支持多語言。Spark允許Java、Scala及Python,這允許開發(fā)者在自己熟悉的語言環(huán)境下進行工作。它自帶了80多個高等級操作符,允許在shell中進行交互式查詢。

3. 支持復雜查詢。在簡單的“map”及“reduce”操作之外,Spark還支持SQL查詢、流式查詢及復雜查詢,比如開箱即用的機器學習機圖算法。同時,用戶可以在同一個工作流中無縫的搭配這些能力。

4. 實時的流處理。對比MapReduce只能處理離線數(shù)據(jù),Spark支持實時的流計算。Spark依賴Spark Streaming對數(shù)據(jù)進行實時的處理,當然在YARN之后Hadoop也可以借助其他的工具進行流式計算。對于Spark Streaming,Cloudera的評價是:

簡單:輕量級且具備功能強大的API,Sparks Streaming允許你快速開發(fā)流應用程序。

容錯:不像其他的流解決方案,比如Storm,無需額外的代碼和配置,Spark Streaming就可以做大量的恢復和交付工作。

集成:為流處理和批處理重用了同樣的代碼,甚至可以將流數(shù)據(jù)保存到歷史數(shù)據(jù)中。

5. 可以與Hadoop和已存Hadoop數(shù)據(jù)整合。Spark可以獨立的運行,除了可以運行在當下的YARN集群管理之外,它還可以讀取已有的任何Hadoop數(shù)據(jù)。這是個非常大的優(yōu)勢,它可以運行在任何Hadoop數(shù)據(jù)源上,比如HBase、HDFS等。這個特性讓用戶可以輕易遷移已有Hadoop應用,如果合適的話。

6. 活躍和無限壯大的社區(qū)。Spark起源于2009年,當下已有超過50個機構250個工程師貢獻過代碼,和去年六月相比,代碼行數(shù)幾乎擴大三倍,這是個令人艷羨的增長。

D1Net評論:

以上關于Spark六個方面的闡釋,可以幫助企業(yè)更加深入認識Spark,對于企業(yè)而言,隨著Spark深入應用,Spark在企業(yè)發(fā)展中的重要性逐漸凸顯,未來,企業(yè)必須要充分了解Spark,這樣才能把Spark的價值應用到實處。

鏈接已復制,快去分享吧

企業(yè)網版權所有?2010-2025 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 芮城县| 辰溪县| 南城县| 封丘县| 汽车| 策勒县| 仪陇县| 江川县| 钟山县| 汶川县| 鸡西市| 城口县| 全南县| 扎赉特旗| 永川市| 丰镇市| 安阳市| 汕尾市| 巴塘县| 若尔盖县| 那曲县| 新津县| 黄石市| 苍南县| 古交市| 德钦县| 延津县| 平谷区| 工布江达县| 台北县| 昌邑市| 华池县| 姜堰市| 洱源县| 大丰市| 津市市| 桂阳县| 枣阳市| 濮阳市| 永康市| 岫岩|