精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

Apache Spark 2.0技術(shù)預(yù)覽版

責(zé)任編輯:editor004

作者:Alex Giamas

2016-06-06 11:47:31

摘自:INFOQ

Apache Spark第一版發(fā)布時隔兩年后,Databricks公布了基于上游分支2 0 0-preview的Apache Spark 2 0技術(shù)預(yù)覽版。此次發(fā)布的新版主要針對社區(qū)反饋進一步完善了各種功能,根據(jù)Spark的開發(fā)計劃,主要改進分為兩方面。

Apache Spark第一版發(fā)布時隔兩年后,Databricks公布了基于上游分支2.0.0-preview的Apache Spark 2.0技術(shù)預(yù)覽版。該預(yù)覽版在穩(wěn)定性和API方面均不適合用于生產(chǎn)環(huán)境,主要是為了在正式上市前收集來及社區(qū)的反饋。

此次發(fā)布的新版主要針對社區(qū)反饋進一步完善了各種功能,根據(jù)Spark的開發(fā)計劃,主要改進分為兩方面。

SQL是基于Apache Spark的應(yīng)用程序最常用的接口之一。Spark 2.0可以支持全部的99個TPC-DS查詢,這些查詢大部分都基于SQL:2003規(guī)范。這些改進有助于在對應(yīng)用程序堆棧進行最少量重寫的情況下將現(xiàn)有數(shù)據(jù)負載移植至Spark后端。

第二方面改進主要是編程API,同時在這個新版中也更重視機器學(xué)習(xí)。spark.mllib程序包已經(jīng)被全新的spark.ml程序包所取代,后者更加側(cè)重于基于管線的API,這項技術(shù)源自DataFrames。機器學(xué)習(xí)管線和模型現(xiàn)已能夠持久保存,Spark所支持的所有語言均支持這一特性。同時R已經(jīng)可以支持K-Means、Generalized Linear Models(GLM)、樸素貝葉斯和Survival Regression。

借助新增的Datasets類,DataFrames和Datasets已實現(xiàn)了統(tǒng)一,可支持Scala和Java編程語言,同時也可充當(dāng)結(jié)構(gòu)流(Structured streaming)的抽象。不支持編譯時類型安全(Compile time type safety)的語言暫時還無法做到這一點,此時只能使用DataFrames作為主要抽象。SQLContext和HiveContext已被統(tǒng)一的SparkSession所取代。新增的Accumulator API具有比基本類型更簡單的類型層級,可支持對基本類型進行專門化(Specialization)。老的API已被棄用,但為了實現(xiàn)向后兼容性依然包含在新版中。

新發(fā)布的結(jié)構(gòu)化流API主要可用于在不增加復(fù)雜性的前提下管理流數(shù)據(jù)集,借此程序員和現(xiàn)有機器學(xué)習(xí)算法將可以處理批量加載的數(shù)據(jù)集。在第二代Tungsten引擎的幫助下,性能也有所增強,執(zhí)行速度最高可提升10倍。

該技術(shù)預(yù)覽版已經(jīng)發(fā)布至DataBricks。

查看英文原文:Apache Spark 2.0 Technical Preview

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 沁源县| 务川| 定边县| 松溪县| 财经| 龙里县| 中牟县| 康马县| 墨玉县| 龙门县| 青浦区| 屏东县| 霍山县| 丹凤县| 新昌县| 武胜县| 昌平区| 荥阳市| 广平县| 武安市| 福建省| 兴和县| 濮阳市| 湘阴县| 桑植县| 繁昌县| 湘阴县| 克东县| 彩票| 南江县| 绍兴市| 唐海县| 当阳市| 莎车县| 东宁县| 固始县| 公安县| 郸城县| 闽清县| 五指山市| 呼图壁县|