Spark Summit EU 2016 上星期在布魯塞爾召開,其中大會中的重頭戲是Apache Spark 集成深度學習庫 TensorFlow、使用結構化的流進行在線學習和GPU硬件加速。
大會第一日最具特色的是預覽了由Spark 2.0引入的一個創新。該API是針對DataFrames和Datasets簡化了的接口,使其更容易去開發大數據應用。這個第二代的 Tungsten 引擎通過把MPP數據庫的理念應用到數據處理查詢使處理更接近于硬件了:針對中間數據和以節省空間的面向列方式保存在內存中的數據,生成的字節碼充分利用CPU寄存器的能力。
不管API是否使用過,數據操作圖都是通過Catalyst Optimizer優化過的,它針對所有集群上的計算指令生成執行計劃,并針對每個操作進行優化。
結構化的流,這是作為阿爾法版針對流發布的一個新的高層API,在本次大會中也做了推介。該API集成了Spark的Dataset和DataFrame,使開發人員可以以類似于Spark批量API的方式描述從(到)外部系統的數據讀寫。它通過以批處理指令的方式編譯流處理指令提供了很強的一致性,并使事務型系統可以與存儲系統集成在一起(比如HDFS和AWS S3)。
在大會第二天,Databricks的CEO Ali Ghodsi將Spark描繪成了將AI大眾化的一款工具,它簡化了機器語言算法的數據準備和計算指令的管理。今年早些時候,深度學習類庫TensorFlow通過一個稱為 TensorFrames的類庫集成運行于Spark之上。這個類庫允許在DataFrames和TensorFlow之間在運行期傳遞數據。
數據科學專題召開了一個會議,主要圍繞的主題是如何結構化流使機器學習具有彈性,并使其可以做到在線學習,這就有可能做到根據到達的數據去更新一些機器學習模型了,而不是采用一批離線任務去執行模型訓練。
最后一個重頭戲是在Databricks平臺支持GPU和更多深度學習類庫集成的公告。GPU的支持是通過像CUDA這樣的硬件類庫完成的,并可以在Databricks中預先構建它,據說這樣集群設置成本就會有更低了。
查看英文原文:Spark Summit EU Highlights: TensorFlow, Structured Streaming and GPU Hardware Acceleration