久久毛片免费看一区二区三区,国内精品日本久久久久影院,日韩电影在线免费

從WordCount看Spark大數據處理的核心機制

責任編輯：editor005

作者：YoyaProgrammer

2015-06-05 13:40:00

摘自：優雅程序員

既然反復寫磁盤和從磁盤加載數據使得性能下降，那就把數據放到內存中，這就是Spark基于內存的彈性分布式數據集(RDD)的出發點。

在上一篇文章中，我們講了Spark大數據處理的可擴展性和負載均衡，今天要講的是更為重點的容錯處理，這涉及到Spark的應用場景和RDD的設計來源。

Spark的應用場景

Spark主要針對兩種場景：

機器學習，數據挖掘，圖應用中常用的迭代算法(每一次迭代對數據執行相似的函數)

交互式數據挖掘工具(用戶反復查詢一個數據子集)

Spark在spark-submit外，還提供了spark-shell，它就是專門用來做交互數據挖掘的工具

MapReduce等框架并不明確支持迭代中間結果/數據子集的共享，所以需要將數據輸出到磁盤，然后在每次查詢時重新加載，這帶來較大的開銷。

既然反復寫磁盤和從磁盤加載數據使得性能下降，那就把數據放到內存中，這就是Spark基于內存的彈性分布式數據集(RDD)的出發點。

自動容錯

MapReduce是容錯性非常好的系統。處理一步就放到磁盤，再處理一步又放到磁盤，一旦哪一步有問題，重做就好了，真可謂是一步一個腳印。Spark為了上述場景下的性能，把數據放在內存中，那整個系統的容錯就成了最困難的地方。

一般來說，分布式數據集的容錯性有兩種方式：即數據檢查點和記錄數據的更新。由于面向的是大規模數據分析，數據檢查點操作成本很高：需要通過數據中心的網絡連接在機器之間復制龐大的數據集，而網絡帶寬往往比內存帶寬低得多，同時還需要消耗更多的存儲資源(在內存中復制數據可以減少需要緩存的數據量，而存儲到磁盤則會拖慢應用程序)。所以選擇記錄更新的方式。但是，如果更新太多，那么記錄更新成本也不低。因此，RDD只支持讀操作，并且只支持粗粒度轉換，即在大量記錄上執行的單個操作。將創建RDD的一系列轉換記錄下來(即Lineage)，以便恢復丟失的分區。

雖然只支持粗粒度轉換限制了編程模型，但是RDD仍然可以很好地適用于很多應用，特別是支持數據并行的批量分析應用，包括數據挖掘、機器學習、圖算法等，因為這些程序通常都會在很多記錄上執行相同的操作。

RDD抽象

RDD是只讀的、分區記錄的集合。RDD只能基于在穩定物理存儲中的數據集和其他已有的RDD上執行確定性操作來創建。這些確定性操作稱之為轉換，如map、filter、groupBy、join(轉換不是程開發人員在RDD上執行的操作)。

RDD含有如何從其他RDD計算出本RDD的相關信息(即Lineage)，據此可以從物理存儲的數據計算出相應的RDD分區。

在需要反復使用的某個數據集時，使用RDD的持久化，即persist，這個持久化優先是放在內存中的。

再來看看WordCount

說了這么多，我們依然拿WordCount來說說，幫忙小伙伴們理解，還沒有看本系列前兩篇文章的童鞋抓緊去看看哈。

val file = "hdfs://127.0.0.1:9000/file.txt"

val lines = sc.textFile(file)

val words = lines.flatMap(line => line.split("\s+"))

val partialCountMap = words

.mapPartitions(convertWordsInPartitionToWordCountMap)