精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:統一通信/協作企業動態 → 正文

雅虎開源了TensorFlowOnSpark

責任編輯:editor004 作者:Dylan Raithel |來源:企業網D1Net  2017-04-10 11:34:35 本文摘自:INFOQ

雅虎開源了TensorFlowOnSpark,數據科學家和工程師們可以直接利用運行于CPU/GPU架構上的Spark或者Hadoop做分布式模型訓練。據報道,這個庫支持把現有的TensorFlow程序切換到新的API,同時實現了模型訓練的性能提升。

在開源公告里,雅虎說明了TensorFlowOnSpark想解決的問題,比如在深度神經網絡訓練中管理Spark數據管線之外的其他集群帶來的運維負載,以網絡I/O為瓶頸的數據集在訓練集群的傳入和傳出,令人討厭的系統復雜性,以及端到端的整體學習時延。TensorFlowOnSpark的工作和雅虎之前開源的CaffeOnSpark相似。現有的對TensorFlow和Spark的集成所做的努力,有DataBricks的TensorFrame,以及Amp Lab 的SparkNet,這些對于雅虎來說都是在正確方向上的邁進,但是在允許TensorFlow進程之間直接通信方面還是有所欠缺。雅虎的目標之一,是讓TensorFlowOnSpark成為一個完全對Spark兼容的API,在一個Spark處理工作流里,其集成能力能跟SparkSQL、MLib以及其他Spark核心庫一樣好。

在架構上,它把給定TensorFlow算法和TensorFlow core放在一個Spark Executor中,并讓TensorFlow任務能夠通過TensorFlow的文件閱讀器和QueueRunners直接獲取HDFS數據,這是一種有著更少網絡I/O以及“把計算帶給數據”的方案。TensorFlowOnSpark在語義上就支持對執行器的端口預留和監聽,對數據和控制函數的消息輪詢,TensorFlow主函數的啟動,數據注入,直接從HDFS讀取數據的閱讀器和queue-runner機制,通過feed_dict向TensorFlow注入Spark RDD,以及關機。

除了TensorFlowOnSpark,雅虎還在他們自己的分支上擴展了TensorFlow核心C++引擎以在Infiniband里使用RDMA,這個需求在TensorFlow主項目里被提出過還產生了相關討論。雅虎的Andy Feng注意到,使用RDMA而不是gRPC來做進程間通信,在不同的網絡里會帶來百分之十到百分之兩百不等的訓練速度的提升。

查看英文原文:Yahoo Open Sources TensorFlowOnSpark

關鍵字:TensorFlowOnSpark

本文摘自:INFOQ

x 雅虎開源了TensorFlowOnSpark 掃一掃
分享本文到朋友圈
當前位置:統一通信/協作企業動態 → 正文

雅虎開源了TensorFlowOnSpark

責任編輯:editor004 作者:Dylan Raithel |來源:企業網D1Net  2017-04-10 11:34:35 本文摘自:INFOQ

雅虎開源了TensorFlowOnSpark,數據科學家和工程師們可以直接利用運行于CPU/GPU架構上的Spark或者Hadoop做分布式模型訓練。據報道,這個庫支持把現有的TensorFlow程序切換到新的API,同時實現了模型訓練的性能提升。

在開源公告里,雅虎說明了TensorFlowOnSpark想解決的問題,比如在深度神經網絡訓練中管理Spark數據管線之外的其他集群帶來的運維負載,以網絡I/O為瓶頸的數據集在訓練集群的傳入和傳出,令人討厭的系統復雜性,以及端到端的整體學習時延。TensorFlowOnSpark的工作和雅虎之前開源的CaffeOnSpark相似。現有的對TensorFlow和Spark的集成所做的努力,有DataBricks的TensorFrame,以及Amp Lab 的SparkNet,這些對于雅虎來說都是在正確方向上的邁進,但是在允許TensorFlow進程之間直接通信方面還是有所欠缺。雅虎的目標之一,是讓TensorFlowOnSpark成為一個完全對Spark兼容的API,在一個Spark處理工作流里,其集成能力能跟SparkSQL、MLib以及其他Spark核心庫一樣好。

在架構上,它把給定TensorFlow算法和TensorFlow core放在一個Spark Executor中,并讓TensorFlow任務能夠通過TensorFlow的文件閱讀器和QueueRunners直接獲取HDFS數據,這是一種有著更少網絡I/O以及“把計算帶給數據”的方案。TensorFlowOnSpark在語義上就支持對執行器的端口預留和監聽,對數據和控制函數的消息輪詢,TensorFlow主函數的啟動,數據注入,直接從HDFS讀取數據的閱讀器和queue-runner機制,通過feed_dict向TensorFlow注入Spark RDD,以及關機。

除了TensorFlowOnSpark,雅虎還在他們自己的分支上擴展了TensorFlow核心C++引擎以在Infiniband里使用RDMA,這個需求在TensorFlow主項目里被提出過還產生了相關討論。雅虎的Andy Feng注意到,使用RDMA而不是gRPC來做進程間通信,在不同的網絡里會帶來百分之十到百分之兩百不等的訓練速度的提升。

查看英文原文:Yahoo Open Sources TensorFlowOnSpark

關鍵字:TensorFlowOnSpark

本文摘自:INFOQ

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 康乐县| 岳西县| 济南市| 托里县| 茂名市| 峨边| 南和县| 清镇市| 息烽县| 云安县| 栖霞市| 乌兰察布市| 镇原县| 邛崃市| 抚顺县| 电白县| 武清区| 吉安市| 黄平县| 图们市| 松江区| 白玉县| 岳阳市| 惠来县| 大竹县| 资源县| 永泰县| 新巴尔虎右旗| 宣汉县| 沂南县| 商都县| 油尖旺区| 尼木县| 东明县| 边坝县| 永清县| 辽宁省| 唐河县| 汕头市| 双牌县| 津市市|