摘要:數(shù)據(jù)工程師到底做了什么?他們主要在幕后工作,設(shè)計(jì)和維護(hù)保持大數(shù)據(jù)管道運(yùn)行的網(wǎng)絡(luò)和軟件。像醫(yī)院的護(hù)理人員一樣,數(shù)據(jù)工程師設(shè)置舞臺(tái)并保持運(yùn)行。數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的角色可能令人困惑,因?yàn)樗麄兊墓δ苡幸恍┲丿B。然而,數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家對(duì)同一工作不是不同的職稱(chēng),而是這兩個(gè)工作需要不同的技能和經(jīng)驗(yàn)。一些數(shù)據(jù)科學(xué)家可以實(shí)施數(shù)據(jù)工程。一些數(shù)據(jù)工程師可以實(shí)施數(shù)據(jù)分析和數(shù)據(jù)可視化。
當(dāng)人們談起醫(yī)學(xué)專(zhuān)業(yè)時(shí),醫(yī)生將得到應(yīng)有的榮耀。而在物聯(lián)網(wǎng)的世界里,數(shù)據(jù)科學(xué)家得到了最多的關(guān)注和贊譽(yù)。他們從大數(shù)據(jù)中提取關(guān)鍵情報(bào),使企業(yè)能夠在現(xiàn)場(chǎng)做出明智的決策。但他們并不是在真空中開(kāi)展他們的工作。數(shù)據(jù)科學(xué)家不能在沒(méi)有數(shù)據(jù)工程師協(xié)助的情況下獨(dú)自完成這些工作,因此,數(shù)據(jù)工程師相當(dāng)于醫(yī)院中的護(hù)士,確保大數(shù)據(jù)不斷流動(dòng)。而任何在醫(yī)療行業(yè)工作的人都會(huì)告訴你,護(hù)士才會(huì)讓醫(yī)院業(yè)務(wù)保持正常運(yùn)行。
數(shù)據(jù)工程師到底做了什么?他們主要在幕后工作,設(shè)計(jì)和維護(hù)保持大數(shù)據(jù)管道運(yùn)行的網(wǎng)絡(luò)和軟件。像醫(yī)院的護(hù)理人員一樣,數(shù)據(jù)工程師設(shè)置舞臺(tái)并保持運(yùn)行。數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的角色可能令人困惑,因?yàn)樗麄兊墓δ苡幸恍┲丿B。然而,數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家對(duì)同一工作不是不同的職稱(chēng),而是這兩個(gè)工作需要不同的技能和經(jīng)驗(yàn)。一些數(shù)據(jù)科學(xué)家可以實(shí)施數(shù)據(jù)工程。一些數(shù)據(jù)工程師可以實(shí)施數(shù)據(jù)分析和數(shù)據(jù)可視化。
然而,這兩種角色確實(shí)有區(qū)別。例如,大型應(yīng)用程序需要數(shù)據(jù)工程師的技能。而研究是數(shù)據(jù)科學(xué)家的主要工作。就像醫(yī)院中的護(hù)士一樣,數(shù)據(jù)工程師是一個(gè)特殊的品種。最好的有某些個(gè)性特點(diǎn),他們具有優(yōu)秀特點(diǎn):重點(diǎn),機(jī)械能力,耐心和持久性。而良好的數(shù)據(jù)工程師則沉下心來(lái)。他們想要了解數(shù)據(jù)管道如何工作和為什么工作,或者不工作。數(shù)據(jù)工程師需要耐心和毅力才能把事情做好。
為了進(jìn)行建模,數(shù)據(jù)科學(xué)家需要數(shù)據(jù)工程師來(lái)收集,存儲(chǔ)和處理數(shù)據(jù),以便他們能夠分析數(shù)據(jù)以獲得洞察。負(fù)責(zé)數(shù)據(jù)管理,數(shù)據(jù)工程師處理程序,準(zhǔn)則和標(biāo)準(zhǔn)。他們開(kāi)發(fā)數(shù)據(jù)管理技術(shù)和軟件工程工具,并設(shè)計(jì)定制軟件,發(fā)現(xiàn)從災(zāi)難中恢復(fù)的方法,提高了數(shù)據(jù)的可靠性,效率和質(zhì)量。而用戶(hù)定義的功能和分析也是數(shù)據(jù)工程師工作的一部分。
相比之下,數(shù)據(jù)科學(xué)家對(duì)于事物有著更為宏觀(guān)的看法,并且與數(shù)據(jù)有著不太密切的關(guān)系,他們處理來(lái)自業(yè)務(wù)需求的分析項(xiàng)目。數(shù)據(jù)科學(xué)家還采用數(shù)據(jù)挖掘架構(gòu),建模標(biāo)準(zhǔn),報(bào)告和數(shù)據(jù)方法。以外,他們還管理數(shù)據(jù)挖掘系統(tǒng)的性能和效率。
因?yàn)閿?shù)據(jù)工程師建立和維護(hù)向數(shù)據(jù)科學(xué)家發(fā)送信息的數(shù)據(jù)管道,其工作是非常有價(jià)值的。如果數(shù)據(jù)工程師了解算法,就可以運(yùn)行基本的學(xué)習(xí)模型。而數(shù)據(jù)科學(xué)家解決業(yè)務(wù)問(wèn)題,采用復(fù)雜的機(jī)器學(xué)習(xí)算法。最好的數(shù)據(jù)科學(xué)家采用機(jī)器學(xué)習(xí)模型來(lái)滿(mǎn)足業(yè)務(wù)或代理機(jī)構(gòu)不斷變化的需求。
應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的工具
數(shù)據(jù)庫(kù)集成和非結(jié)構(gòu)化大數(shù)據(jù)的挑戰(zhàn)由數(shù)據(jù)工程師處理。他們必須清理非結(jié)構(gòu)化數(shù)據(jù),然后將其傳遞給組織中需要這些數(shù)據(jù)的任何人。像準(zhǔn)備手術(shù)患者的護(hù)士一樣,數(shù)據(jù)工程師為數(shù)據(jù)科學(xué)家為數(shù)據(jù)輕松工作做好準(zhǔn)備。他們應(yīng)該了解數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)庫(kù)設(shè)計(jì),數(shù)據(jù)收集和傳輸以及編碼等知識(shí)。
數(shù)據(jù)工程師正在關(guān)注的數(shù)據(jù)管道部分決定了他們將使用哪些工具。流水線(xiàn)后端的數(shù)據(jù)工程師構(gòu)建用于數(shù)據(jù)消耗的API,集成來(lái)自外部源的數(shù)據(jù)集,并分析數(shù)據(jù)如何用于支持業(yè)務(wù)增長(zhǎng)。
雖然這些專(zhuān)業(yè)人士有很多語(yǔ)言可供選擇,Python是一個(gè)很好的選擇。數(shù)據(jù)工程師使用它來(lái)編寫(xiě)與數(shù)據(jù)攝取相關(guān)的代碼。Python可以與任何數(shù)據(jù)存儲(chǔ)(如NoSQL和RDBMS)通信。數(shù)據(jù)工程師可能必須使用大數(shù)據(jù)技術(shù)(如Hadoop和Spark)根據(jù)數(shù)據(jù)的使用方式提出改進(jìn)建議。
數(shù)據(jù)工程師有許多工具可供使用,包括:
·Spark
·NoSQL數(shù)據(jù)庫(kù)(例如Cassandra和MongoDB)
·Hadoop和相關(guān)工具,如HBase,Hive和Pig
·Pentaho
·VMware
·JavaScript
數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的前景如日東升
數(shù)據(jù)工程師可以期望過(guò)上一個(gè)好生活。在美國(guó),數(shù)據(jù)工程師的平均工資是95,526美元。平均年薪標(biāo)準(zhǔn)的最低為$65,000,最高為$121,000。美國(guó)對(duì)這些工作的需求在2024年將增長(zhǎng)15%,這比美國(guó)所有職業(yè)的平均水平要快。一些行業(yè)巨頭和美國(guó)政府部門(mén),正在提高他們對(duì)這兩個(gè)職位的數(shù)量要求。
去年,一個(gè)調(diào)查機(jī)構(gòu)調(diào)查了美國(guó)和歐洲的422名高管。詢(xún)問(wèn)他們關(guān)于金融服務(wù),醫(yī)療保健,制造業(yè)和零售業(yè)等行業(yè)最需要的數(shù)字技能是什么。43%的企業(yè)高管表示,在三年內(nèi),分析和大數(shù)據(jù)技能將是他們公司最重要的數(shù)字能力。
隨著生活和業(yè)務(wù)越來(lái)越受數(shù)據(jù)驅(qū)動(dòng),行業(yè)對(duì)數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家的需求將繼續(xù)上升。現(xiàn)在是數(shù)據(jù)專(zhuān)業(yè)人員獲取或利用他們的技能的時(shí)候,所以他們將有良好的職業(yè)發(fā)展前途。