精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

數(shù)據(jù)預(yù)備管道:策略、選擇和工具

責(zé)任編輯:editor004 作者: Srini Penchikala |來源:企業(yè)網(wǎng)D1Net  2017-04-20 11:21:17 本文摘自:INFOQ

數(shù)據(jù)預(yù)備是數(shù)據(jù)處理和數(shù)據(jù)分析的一個重要組成部分。業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家把80%的時間花在收集數(shù)據(jù)和準(zhǔn)備數(shù)據(jù)上,而不是用于分析數(shù)據(jù)或開發(fā)機(jī)器學(xué)習(xí)模型。Kelly Stirman在上周舉行的2017企業(yè)數(shù)據(jù)世界大會上分享了有關(guān)數(shù)據(jù)預(yù)備的最佳實踐。

Kelly解釋了數(shù)據(jù)預(yù)備與數(shù)據(jù)集成之間的不同點。數(shù)據(jù)預(yù)備一般是由業(yè)務(wù)分析師來完成的,他們使用Alteryx、Trifacta和Paxata這類工具進(jìn)行數(shù)據(jù)預(yù)備。而數(shù)據(jù)集成是一個IT工具,一般由IT團(tuán)隊來完成,他們會使用Informatic、SAS、SQL或者來自IBM的集成工具進(jìn)行數(shù)據(jù)集成。

數(shù)據(jù)集成已經(jīng)很成熟也很健壯,并已經(jīng)與企業(yè)標(biāo)準(zhǔn)、安全和監(jiān)管控制集成到一起。數(shù)據(jù)集成是基于服務(wù)器的,所以一般是集中式的,并且具有可伸縮性。不過它也有一些限制,它只是面向IT人員,對數(shù)據(jù)的質(zhì)量要求不高。對于企業(yè)來說,數(shù)據(jù)集成已經(jīng)很成熟,但是對于云平臺、第三方應(yīng)用、Hadoop和NoSQL數(shù)據(jù)庫來說還沒有達(dá)到相同的成熟度。

相反,數(shù)據(jù)預(yù)備更看重速度、易用性,并能夠以更快的速度創(chuàng)造價值。它是基于以數(shù)據(jù)為中心的模型(相對于以元數(shù)據(jù)為中心的模型),同時適用于IT人員和業(yè)務(wù)人員。它支持不同的數(shù)據(jù)處理環(huán)境,如Hadoop、NoSQL數(shù)據(jù)庫、云平臺,以及機(jī)器學(xué)習(xí)。它的局限性體現(xiàn)在:不成熟的技術(shù)棧、有限的集成和技能生態(tài)系統(tǒng)、不完整的安全集成,以及對IT和協(xié)調(diào)流程的依賴。

Kelly分別為業(yè)務(wù)人員、數(shù)據(jù)科學(xué)家和軟件開發(fā)人員介紹了各種開源和商業(yè)工具,并比較了這些工具的優(yōu)點和缺點。其中的開源工具Apache Spark、Pandas(Python)和dplyr(R)可以幫助數(shù)據(jù)科學(xué)家和開發(fā)人員進(jìn)行數(shù)據(jù)預(yù)備。

在選擇數(shù)據(jù)預(yù)備解決方案和工具時,可以考慮如下因素:可用性、協(xié)作、許可模型、監(jiān)管、復(fù)雜性、供應(yīng)商以及生態(tài)系統(tǒng)。

查看英文原文:Data Preparation Pipelines: Strategy, Options and Tools

關(guān)鍵字:數(shù)據(jù)集成

本文摘自:INFOQ

x 數(shù)據(jù)預(yù)備管道:策略、選擇和工具 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

數(shù)據(jù)預(yù)備管道:策略、選擇和工具

責(zé)任編輯:editor004 作者: Srini Penchikala |來源:企業(yè)網(wǎng)D1Net  2017-04-20 11:21:17 本文摘自:INFOQ

數(shù)據(jù)預(yù)備是數(shù)據(jù)處理和數(shù)據(jù)分析的一個重要組成部分。業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家把80%的時間花在收集數(shù)據(jù)和準(zhǔn)備數(shù)據(jù)上,而不是用于分析數(shù)據(jù)或開發(fā)機(jī)器學(xué)習(xí)模型。Kelly Stirman在上周舉行的2017企業(yè)數(shù)據(jù)世界大會上分享了有關(guān)數(shù)據(jù)預(yù)備的最佳實踐。

Kelly解釋了數(shù)據(jù)預(yù)備與數(shù)據(jù)集成之間的不同點。數(shù)據(jù)預(yù)備一般是由業(yè)務(wù)分析師來完成的,他們使用Alteryx、Trifacta和Paxata這類工具進(jìn)行數(shù)據(jù)預(yù)備。而數(shù)據(jù)集成是一個IT工具,一般由IT團(tuán)隊來完成,他們會使用Informatic、SAS、SQL或者來自IBM的集成工具進(jìn)行數(shù)據(jù)集成。

數(shù)據(jù)集成已經(jīng)很成熟也很健壯,并已經(jīng)與企業(yè)標(biāo)準(zhǔn)、安全和監(jiān)管控制集成到一起。數(shù)據(jù)集成是基于服務(wù)器的,所以一般是集中式的,并且具有可伸縮性。不過它也有一些限制,它只是面向IT人員,對數(shù)據(jù)的質(zhì)量要求不高。對于企業(yè)來說,數(shù)據(jù)集成已經(jīng)很成熟,但是對于云平臺、第三方應(yīng)用、Hadoop和NoSQL數(shù)據(jù)庫來說還沒有達(dá)到相同的成熟度。

相反,數(shù)據(jù)預(yù)備更看重速度、易用性,并能夠以更快的速度創(chuàng)造價值。它是基于以數(shù)據(jù)為中心的模型(相對于以元數(shù)據(jù)為中心的模型),同時適用于IT人員和業(yè)務(wù)人員。它支持不同的數(shù)據(jù)處理環(huán)境,如Hadoop、NoSQL數(shù)據(jù)庫、云平臺,以及機(jī)器學(xué)習(xí)。它的局限性體現(xiàn)在:不成熟的技術(shù)棧、有限的集成和技能生態(tài)系統(tǒng)、不完整的安全集成,以及對IT和協(xié)調(diào)流程的依賴。

Kelly分別為業(yè)務(wù)人員、數(shù)據(jù)科學(xué)家和軟件開發(fā)人員介紹了各種開源和商業(yè)工具,并比較了這些工具的優(yōu)點和缺點。其中的開源工具Apache Spark、Pandas(Python)和dplyr(R)可以幫助數(shù)據(jù)科學(xué)家和開發(fā)人員進(jìn)行數(shù)據(jù)預(yù)備。

在選擇數(shù)據(jù)預(yù)備解決方案和工具時,可以考慮如下因素:可用性、協(xié)作、許可模型、監(jiān)管、復(fù)雜性、供應(yīng)商以及生態(tài)系統(tǒng)。

查看英文原文:Data Preparation Pipelines: Strategy, Options and Tools

關(guān)鍵字:數(shù)據(jù)集成

本文摘自:INFOQ

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 闸北区| 宁德市| 昌图县| 枣强县| 沁水县| 荔浦县| 闻喜县| 舞钢市| 扶风县| 永清县| 广西| 孝义市| 喀喇| 元朗区| 商水县| 彰武县| 安康市| 百色市| 长海县| 夏河县| 邳州市| 玉林市| 荃湾区| 辽宁省| 界首市| 连南| 鲜城| 英吉沙县| 泾阳县| 贞丰县| 普安县| 大邑县| 平远县| 冷水江市| 永川市| 桦南县| 闻喜县| 资中县| 关岭| 阿城市| 安岳县|