成人午夜视频在线观,久久免费视频网站,久久国产精品自由自在

Spark Summit EU重頭戲：TensorFlow、結構化的流和GPU硬件加速

責任編輯：editor004

作者：Alexandre Rodrigues

2016-11-23 11:30:37

摘自：INFOQ

Spark Summit EU 2016 上星期在布魯塞爾召開，其中大會中的重頭戲是Apache Spark 集成深度學習庫 TensorFlow、使用結構化的流進行在線學習和GPU硬件加速

Spark Summit EU 2016 上星期在布魯塞爾召開，其中大會中的重頭戲是Apache Spark 集成深度學習庫 TensorFlow、使用結構化的流進行在線學習和GPU硬件加速。

大會第一日最具特色的是預覽了由Spark 2.0引入的一個創新。該API是針對DataFrames和Datasets簡化了的接口，使其更容易去開發大數據應用。這個第二代的 Tungsten 引擎通過把MPP數據庫的理念應用到數據處理查詢使處理更接近于硬件了：針對中間數據和以節省空間的面向列方式保存在內存中的數據，生成的字節碼充分利用CPU寄存器的能力。

不管API是否使用過，數據操作圖都是通過Catalyst Optimizer優化過的，它針對所有集群上的計算指令生成執行計劃，并針對每個操作進行優化。

結構化的流，這是作為阿爾法版針對流發布的一個新的高層API，在本次大會中也做了推介。該API集成了Spark的Dataset和DataFrame，使開發人員可以以類似于Spark批量API的方式描述從（到）外部系統的數據讀寫。它通過以批處理指令的方式編譯流處理指令提供了很強的一致性，并使事務型系統可以與存儲系統集成在一起（比如HDFS和AWS S3）。

在大會第二天，Databricks的CEO Ali Ghodsi將Spark描繪成了將AI大眾化的一款工具，它簡化了機器語言算法的數據準備和計算指令的管理。今年早些時候，深度學習類庫TensorFlow通過一個稱為 TensorFrames的類庫集成運行于Spark之上。這個類庫允許在DataFrames和TensorFlow之間在運行期傳遞數據。

數據科學專題召開了一個會議，主要圍繞的主題是如何結構化流使機器學習具有彈性，并使其可以做到在線學習，這就有可能做到根據到達的數據去更新一些機器學習模型了，而不是采用一批離線任務去執行模型訓練。

最后一個重頭戲是在Databricks平臺支持GPU和更多深度學習類庫集成的公告。GPU的支持是通過像CUDA這樣的硬件類庫完成的，并可以在Databricks中預先構建它，據說這樣集群設置成本就會有更低了。

查看英文原文：Spark Summit EU Highlights: TensorFlow, Structured Streaming and GPU Hardware Acceleration

Spark GPU