當前位置：大數據 → 業界動態 → 正文

Spark架構在大數據環境的核心位置找到用武之地

責任編輯：editor006 |來源：企業網D1Net 2016-12-07 17:19:42 本文摘自：網絡大數據

Webtrends公司的IT團隊在Apache Spark這款處理引擎還是一項學術研究項目的時候就已經開始使用它并沿用至今。但當Webtrends在2014年年中部署了一套基于Hadoop的大數據環境來對分析應用程序進行增強的時候，Spark架構便成了一個有限的角色：有關數據索引的聚合細節有助于用戶發現相關信息?，F在，一切都已改變，而且該公司正在花大力氣學習Spark并作為其大數據平臺升級版本的一部分。

Webtrends從網站，移動設備和物聯網收集用戶活動數據提供給企業客戶用于分析，它將Spark置于一款名為Infinity Analytics應用程序的核心位置，該應用在2016年初開始了基本版測試，而現在正在向客戶進行營銷。該公司建立了一個擁有160個節點的Spark系統來支持在線營銷活動的實時優化，而這是以進入Hadoop集群的活動數據流的快速分析為基礎的。“我們基本上已經解除了Spark對數據湖的束縛來做所有的計算，”CTO Peter Crossley說。

越來越多的企業同樣正將注意力轉向Spark以幫助對大數據處理工作進行加速。獨立的統計數據很難得到處理引擎的采用，在2014年五月之后，這才以1.0的版本通過Apache Software Foundation變得可用。但是，Databricks公司是一家初創供應商，它是Spark開發背后的驅動力，公司負責人表示有超過500家企業已經在應用程序的生產中部署了該項技術。而且Spark顯然已經與Hadoop一并躋身大數據聚光燈之下，它和Hadoop經常但并不總是進行配對。

Spark的最開始的名片是它能比MapReduce更快地運行批處理應用程序，而其編程環境和執行引擎是嵌入在Hadoop原始版本中的。Spark的支持者宣稱其核心內存引擎在處理數據上可以比MapReduce快100倍。批處理任務仍是Spark的一個很大的應用方面，分析大量數據和對數據進行提取，轉換和加載(ETL)例程的前期準備也同樣如此。

但是，對于Spark架構來說遠不止如此。該技術還能通過一組附加組件來處理更多的互動和實時工作負載，這些附加組件包括機器學習庫，流處理模塊和圖形處理接口。除了其處理速度和應用程序多功能性，Spark可以讓用戶避免在MapReduce中編程。相反，他們可以使用更高級別且更為熟悉的語言，如Java，Python，Scala，SQL和R。

Spark擁有足夠的部署選項

Hadoop根本不需要成為以下愿景的一部分：Spark能夠針對數據存儲以獨立模式運行，而非Hadoop分布式文件系統——例如，NoSQL數據庫和Amazon Simple Storage Service。同樣的，并不只是Databricks在將該處理引擎推向前進。IBM，Microsoft，Amazon Web Services以及Hadoop的分銷商Cloudera, Hortonworks和 MapR Technologies還有其他大數據廠商同樣對Spark提供并支持。

另一方面，一些早期使用者表示，Spark是一項有待進一步成熟的新興技術。例如，他們引用了內存管理問題，與MapReduce相比缺失的功能，不完整的數據加密支持，以及缺乏監控和管理Spark系統的工具。要填補這些空白，對于Spark架構的開發步伐已然是迅速而劇烈的了：在2015年Apache開源軟件有9個發布版，而到今年為止已經發布了5個版本，包括在7月份可用的Spark2.0版。

但是成熟度問題并不會對諸如Webtrends之類的用戶造成困擾。從Crossley的立場來看，Spark在生產上顯然是已經就緒了的。“它是一項穩定的技術，對于部署Spark我絲毫沒有猶豫，”他說。

MapReduce不會為了Webtrends正在關注的Infinity Analytic應用程序高速性能而進行削減，但Crossley將Spark和它的Spark Streaming模塊描述為一個完美的組合。“我們的想法是數據通過我們的系統進行無縫遷移，而且這是實時發生的。要以一種快速的方法來查看這些數據并進行審計的確需要擁有像Spark這樣的設施。”

每天Webtrends都會對超過130億的在線事件(例如互聯網點擊流)篩選數據到它的Hortonworks，Hortonworks是基于Hadoop的集群。它要花費12個小時來讓傳入的數據在公司的第一款名為Explore的大數據分析應用程序中可用。

有了Spark平臺以流的方式來處理數據和針對其運行自動機器學習的算法，在Infinity Analytics的最初用戶企業中，營銷經理和數據科學家們能夠在幾分鐘內獲得信息，Crossley說。他的目標是將延時降至幾秒鐘，這樣客戶端就能為網站訪問者動態調整網頁和提供營銷。

為Spark架構提升可移動性

Synchronoss Technologies公司同樣將其大數據環境集中在Spark上。“我們非常將Spark作為我們的數據處理引擎，” Bridgewater, N.J.公司的大數據分析師Suren Nathan說，該公司給移動網絡運營商和合作企業出售移動管理應用程序和相關的分析服務。

大數據實現還包括運行了MapR分布的Hadoop集群;它起源于Razorsight Corp.,這是一家Synchronoss在2015年八月收購的分析提供商。Nathan負責Razorsight的部署工作，他說Spark最初是在幾個主要批處理應用程序上作為MapReduce的更快替代品來使用的。這包括ETL數據集成工作，以及給Synchronoss分析團隊提供該公司從其客戶端收集的設備，網絡和操作數據認知的數據分析項目。

但Synchronoss正在尋求對Spark架構的使用進行擴展以用于更加實時的處理領域。到今年年底為止，它計劃為諸如追蹤移動設備使用的應用程序添加Spark Streaming，這樣營銷產品就能在事件發生點發送給客戶，Nathan說。接下來他預計在2017年轉向MLlib，這是Spark的集群學習庫，用于自動分析應用程序——例如，檢測公司網絡中的欺詐活動和對移動設備安全政策的違反。

除了用Python和Java來編寫應用程序代碼，Synchronoss還可以通過該軟件的Spark SQL模塊來進行SQL編程。在其周圍的核心引擎和組件中，對于企業的大數據處理需求來說，Spark平臺是一種一站式服務，Nathan說。“如果我們不使用Spark，那么我們就必須對所有這些東西使用一項不同的技術。”

關鍵字：Spark 數據環境