大家都知道,這三種角色各有不同定位,也知道他們之間有許多一致的地方,但是否能講明白這其中的區(qū)別呢?
國(guó)外 ETL 服務(wù)商 Stitch 的 CEO Jake Stein,近日對(duì)這個(gè)話(huà)題進(jìn)行了總結(jié)。他還繪制了一張工具圖,來(lái)呈現(xiàn)他們?cè)谌粘9ぞ呤褂蒙系牟煌?duì)于新手,也可以通過(guò)這張圖來(lái)看典型的“數(shù)據(jù)科學(xué)家”、“數(shù)據(jù)工程師”和“軟件工程師”都要掌握哪些工具。
Jake Stein:隨著數(shù)據(jù)的爆炸式增長(zhǎng),對(duì)數(shù)據(jù)處理的專(zhuān)家技能需求也隨之井噴。這帶來(lái)的結(jié)果之一,是更精細(xì)的分工。對(duì)于數(shù)據(jù)管理工作的核心角色:數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和軟件工程師,過(guò)去幾年見(jiàn)證了他們?cè)絹?lái)越清晰的定位。
對(duì)于新興職位“數(shù)據(jù)工程師”,它算是“軟件工程師”下面新浮現(xiàn)出的一個(gè)子類(lèi)別。單列出該職位是一項(xiàng)英美近年來(lái)的趨勢(shì)。但在許多公司,遷移、管理數(shù)據(jù)仍舊是軟件工程師的活。
三種數(shù)據(jù)職位的不同技能需求
職能概括
軟件工程師
軟件工程師干的活兒是開(kāi)發(fā)應(yīng)用和系統(tǒng)。這過(guò)程中的每一個(gè)環(huán)節(jié),從設(shè)計(jì)、寫(xiě)代碼、測(cè)試到檢查,開(kāi)發(fā)者都要參與。生成數(shù)據(jù)的產(chǎn)品都是他們開(kāi)發(fā)的。軟件工程是三個(gè)角色中最古老的一個(gè),并且有相當(dāng)成熟的方法體系和工具庫(kù)。
工作內(nèi)容包括:
前端、后端開(kāi)發(fā)
網(wǎng)頁(yè)應(yīng)用
移動(dòng)應(yīng)用
操作系統(tǒng)開(kāi)發(fā)
軟件設(shè)計(jì)
數(shù)據(jù)工程師
數(shù)據(jù)工程師需要開(kāi)發(fā)能對(duì)數(shù)據(jù)進(jìn)行整合、存儲(chǔ)和提取的系統(tǒng),并從軟件工程師開(kāi)發(fā)的應(yīng)用和系統(tǒng)中獲取數(shù)據(jù)。數(shù)據(jù)工程的誕生,是作為軟件工程大類(lèi)下的一個(gè)更細(xì)分的技能類(lèi)別。據(jù)雷鋒網(wǎng)了解,根據(jù)國(guó)外統(tǒng)計(jì),40% 的數(shù)據(jù)工程師原本是軟件工程師。雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))獲知,這是目前一個(gè)很普遍的職業(yè)發(fā)展道路(軟件工程師專(zhuān)注做數(shù)據(jù)工程)。
工作內(nèi)容包括:
高級(jí)數(shù)據(jù)結(jié)構(gòu)
分布式計(jì)算
并發(fā)程序設(shè)計(jì)
使用 Hadoop, Spark, Kafka, Hive 等新工具
開(kāi)發(fā)ETL/數(shù)據(jù)流水線(xiàn)(data pipelines)
數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家的職責(zé)是基于數(shù)據(jù)作分析。
或許有一只想要更好理解消費(fèi)者行為的團(tuán)隊(duì),僅僅做一個(gè)單次分析。也可能是開(kāi)發(fā)一個(gè)機(jī)器學(xué)習(xí)算法,然后將之在軟件工程師和數(shù)據(jù)工程師開(kāi)發(fā)的代碼基礎(chǔ)上執(zhí)行。
工作內(nèi)容包括:
數(shù)據(jù)建模
機(jī)器學(xué)習(xí)
算法
商業(yè)智能的 dashboards
這些角色定位仍在進(jìn)化之中。有些大公司從軟件工程團(tuán)隊(duì)中拉出數(shù)據(jù)工程師,組建一支中央數(shù)據(jù)團(tuán)隊(duì)。這樣,基礎(chǔ)設(shè)施和數(shù)據(jù)分析工作能在一起。雷鋒網(wǎng)獲知,有些案例中,數(shù)據(jù)科學(xué)家既需要做數(shù)據(jù)分析,也需要做數(shù)據(jù)整合。