數(shù)據(jù)預(yù)備是數(shù)據(jù)處理和數(shù)據(jù)分析的一個重要組成部分。業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家把80%的時間花在收集數(shù)據(jù)和準(zhǔn)備數(shù)據(jù)上,而不是用于分析數(shù)據(jù)或開發(fā)機(jī)器學(xué)習(xí)模型。Kelly Stirman在上周舉行的2017企業(yè)數(shù)據(jù)世界大會上分享了有關(guān)數(shù)據(jù)預(yù)備的最佳實踐。
Kelly解釋了數(shù)據(jù)預(yù)備與數(shù)據(jù)集成之間的不同點。數(shù)據(jù)預(yù)備一般是由業(yè)務(wù)分析師來完成的,他們使用Alteryx、Trifacta和Paxata這類工具進(jìn)行數(shù)據(jù)預(yù)備。而數(shù)據(jù)集成是一個IT工具,一般由IT團(tuán)隊來完成,他們會使用Informatic、SAS、SQL或者來自IBM的集成工具進(jìn)行數(shù)據(jù)集成。
數(shù)據(jù)集成已經(jīng)很成熟也很健壯,并已經(jīng)與企業(yè)標(biāo)準(zhǔn)、安全和監(jiān)管控制集成到一起。數(shù)據(jù)集成是基于服務(wù)器的,所以一般是集中式的,并且具有可伸縮性。不過它也有一些限制,它只是面向IT人員,對數(shù)據(jù)的質(zhì)量要求不高。對于企業(yè)來說,數(shù)據(jù)集成已經(jīng)很成熟,但是對于云平臺、第三方應(yīng)用、Hadoop和NoSQL數(shù)據(jù)庫來說還沒有達(dá)到相同的成熟度。
相反,數(shù)據(jù)預(yù)備更看重速度、易用性,并能夠以更快的速度創(chuàng)造價值。它是基于以數(shù)據(jù)為中心的模型(相對于以元數(shù)據(jù)為中心的模型),同時適用于IT人員和業(yè)務(wù)人員。它支持不同的數(shù)據(jù)處理環(huán)境,如Hadoop、NoSQL數(shù)據(jù)庫、云平臺,以及機(jī)器學(xué)習(xí)。它的局限性體現(xiàn)在:不成熟的技術(shù)棧、有限的集成和技能生態(tài)系統(tǒng)、不完整的安全集成,以及對IT和協(xié)調(diào)流程的依賴。
Kelly分別為業(yè)務(wù)人員、數(shù)據(jù)科學(xué)家和軟件開發(fā)人員介紹了各種開源和商業(yè)工具,并比較了這些工具的優(yōu)點和缺點。其中的開源工具Apache Spark、Pandas(Python)和dplyr(R)可以幫助數(shù)據(jù)科學(xué)家和開發(fā)人員進(jìn)行數(shù)據(jù)預(yù)備。
在選擇數(shù)據(jù)預(yù)備解決方案和工具時,可以考慮如下因素:可用性、協(xié)作、許可模型、監(jiān)管、復(fù)雜性、供應(yīng)商以及生態(tài)系統(tǒng)。
查看英文原文:Data Preparation Pipelines: Strategy, Options and Tools