當(dāng)前位置：大數(shù)據(jù) → 業(yè)界動態(tài) → 正文

數(shù)據(jù)預(yù)備管道：策略、選擇和工具

責(zé)任編輯：editor004 作者： Srini Penchikala |來源：企業(yè)網(wǎng)D1Net 2017-04-20 11:21:17 本文摘自：INFOQ

數(shù)據(jù)預(yù)備是數(shù)據(jù)處理和數(shù)據(jù)分析的一個重要組成部分。業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家把80%的時間花在收集數(shù)據(jù)和準(zhǔn)備數(shù)據(jù)上，而不是用于分析數(shù)據(jù)或開發(fā)機(jī)器學(xué)習(xí)模型。Kelly Stirman在上周舉行的2017企業(yè)數(shù)據(jù)世界大會上分享了有關(guān)數(shù)據(jù)預(yù)備的最佳實踐。

Kelly解釋了數(shù)據(jù)預(yù)備與數(shù)據(jù)集成之間的不同點。數(shù)據(jù)預(yù)備一般是由業(yè)務(wù)分析師來完成的，他們使用Alteryx、Trifacta和Paxata這類工具進(jìn)行數(shù)據(jù)預(yù)備。而數(shù)據(jù)集成是一個IT工具，一般由IT團(tuán)隊來完成，他們會使用Informatic、SAS、SQL或者來自IBM的集成工具進(jìn)行數(shù)據(jù)集成。

數(shù)據(jù)集成已經(jīng)很成熟也很健壯，并已經(jīng)與企業(yè)標(biāo)準(zhǔn)、安全和監(jiān)管控制集成到一起。數(shù)據(jù)集成是基于服務(wù)器的，所以一般是集中式的，并且具有可伸縮性。不過它也有一些限制，它只是面向IT人員，對數(shù)據(jù)的質(zhì)量要求不高。對于企業(yè)來說，數(shù)據(jù)集成已經(jīng)很成熟，但是對于云平臺、第三方應(yīng)用、Hadoop和NoSQL數(shù)據(jù)庫來說還沒有達(dá)到相同的成熟度。

相反，數(shù)據(jù)預(yù)備更看重速度、易用性，并能夠以更快的速度創(chuàng)造價值。它是基于以數(shù)據(jù)為中心的模型（相對于以元數(shù)據(jù)為中心的模型），同時適用于IT人員和業(yè)務(wù)人員。它支持不同的數(shù)據(jù)處理環(huán)境，如Hadoop、NoSQL數(shù)據(jù)庫、云平臺，以及機(jī)器學(xué)習(xí)。它的局限性體現(xiàn)在：不成熟的技術(shù)棧、有限的集成和技能生態(tài)系統(tǒng)、不完整的安全集成，以及對IT和協(xié)調(diào)流程的依賴。

Kelly分別為業(yè)務(wù)人員、數(shù)據(jù)科學(xué)家和軟件開發(fā)人員介紹了各種開源和商業(yè)工具，并比較了這些工具的優(yōu)點和缺點。其中的開源工具Apache Spark、Pandas（Python）和dplyr（R）可以幫助數(shù)據(jù)科學(xué)家和開發(fā)人員進(jìn)行數(shù)據(jù)預(yù)備。

在選擇數(shù)據(jù)預(yù)備解決方案和工具時，可以考慮如下因素：可用性、協(xié)作、許可模型、監(jiān)管、復(fù)雜性、供應(yīng)商以及生態(tài)系統(tǒng)。

查看英文原文：Data Preparation Pipelines: Strategy, Options and Tools

關(guān)鍵字：數(shù)據(jù)集成