日韩视频在线免费,午夜噜噜噜私人影院在线播放 ,国产91精品在线播放

谷歌布局大數據：開源平臺Apache Beam正式發布

責任編輯：editor007

作者：王川

2017-01-11 20:46:28

摘自：雷鋒網

美國時間1月10日，Apache軟件基金會對外宣布，萬眾期待的 Apache Beam 在經歷了近一年的孵化之后終于畢業。這一頂級 Apache開源項目終于成熟。

這是大數據處理領域的又一大里程碑事件——僅僅在上個月，騰訊宣布將在2017年一季度開源其大數據計算平臺 Angel 。現在看來，生不逢時的Angel可能迎來了它最大的對手。至此，谷歌終于也完成了對其云端大數據平臺Cloud Dataflow開源的承諾。

Apache Beam有兩大特點：

1、統一了數據批處理(batch)和流處理(stream)編程范式，

2、能在任何執行引擎上運行。

它不僅為模型設計、更為執行一系列數據導向的工作流提供了統一的模型。這些工作流包括數據處理、吸收和整合。

它針對什么問題提供了解決方案：

大數據處理領域的一大問題是：開發者經常要用到很多不同的技術、框架、API、開發語言和SDK。雷鋒網獲知，取決于需要完成的是什么任務，以及在什么情況下進行，開發者很可能會用MapReduce進行批處理，用Apache Spark SQL進行交互請求(interactive queries)，用Apache Flink實時流處理，還有可能用到基于云端的機器學習框架。

近兩年開啟的開源大潮，為大數據開發者提供了十分富余的工具。但這同時也增加了開發者選擇合適的工具的難度，尤其對于新入行的開發者來說。這很可能拖慢、甚至阻礙開源工具的發展：把各種開源框架、工具、庫、平臺人工整合到一起所需工作之復雜，是大數據開發者常有的抱怨之一，也是他們支持專有大數據平臺的首要原因。

谷歌開源Cloud Dataflow背后的算盤是：

Apache Beam的用戶基礎越大，就會有更多人用谷歌云平臺運它。相應地，他們會轉化為谷歌云服務的客戶。騰訊開放Angel的動機與之類似。

背景

2016年2月份，谷歌及其合作伙伴向Apache捐贈了一大批代碼，創立了孵化中的Beam項目(最初叫Apache Dataflow)。這些代碼中的大部分來自于谷歌Cloud Dataflow SDK——開發者用來寫流處理和批處理管道(pipelines)的庫，可在任何支持的執行引擎上運行。當時，支持的主要引擎是谷歌Cloud Dataflow，附帶對Apache Spark和開發中的Apache Flink支持。如今，它正式開放之時，已經有五個官方支持的引擎。除去已經提到的三個，還包括Beam模型和Apache Apex。

雷鋒網獲知，Apache Beam的官方解釋是：“Beam為創建復雜數據平行處理管道，提供了一個可移動(兼容性好)的API層。這層API的核心概念基于Beam模型(以前被稱為Dataflow模型)，并在每個Beam引擎上不同程度得執行。”

谷歌工程師、Apache Beam項目的核心人物Tyler Akidau表示：

“當我們(谷歌和幾家公司)決定把 Cloud Dataflow SDK和相關引擎加入 Apache Beam孵化器項目時，我們腦海里有一個目標：為世界提供一個易于使用、但是很強大的數據并行處理模型，支持流處理和批處理，兼容多個運行平臺。”