精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

如何成為一名優(yōu)秀的大數(shù)據(jù)工程師

責(zé)任編輯:editor005 |來源:企業(yè)網(wǎng)D1Net  2016-08-03 14:28:05 本文摘自:大數(shù)據(jù)觀察

大數(shù)據(jù)是眼下非常時(shí)髦的技術(shù)名詞,與此同時(shí)自然也催生出了一些與大數(shù)據(jù)處理相關(guān)的職業(yè),通過對(duì)數(shù)據(jù)的挖掘分析來影響企業(yè)的商業(yè)決策。

這群人在國外被叫做數(shù)據(jù)科學(xué)家(Data Scientist),這個(gè)頭銜最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他們后來分別成為了領(lǐng)英(LinkedIn)和Facebook數(shù)據(jù)科學(xué)團(tuán)隊(duì)的負(fù)責(zé)人。而數(shù)據(jù)科學(xué)家這個(gè)職位目前也已經(jīng)在美國傳統(tǒng)的電信、零售、金融、制造、物流、醫(yī)療、教育等行業(yè)里開始創(chuàng)造價(jià)值。

大數(shù)據(jù)

不過在國內(nèi),大數(shù)據(jù)的應(yīng)用才剛剛萌芽,人才市場(chǎng)還不那么成熟,“你很難期望有一個(gè)全才來完成整個(gè)鏈條上的所有環(huán)節(jié)。更多公司會(huì)根據(jù)自己已有的資源和短板,招聘能和現(xiàn)有團(tuán)隊(duì)互補(bǔ)的人才。”領(lǐng)英(LinkedIn)中國商務(wù)分析及戰(zhàn)略總監(jiān)王昱堯?qū)Α兜谝回?cái)經(jīng)周刊》說。

數(shù)據(jù)工程師是做什么的?

于是每家公司對(duì)大數(shù)據(jù)工作的要求不盡相同:有的強(qiáng)調(diào)數(shù)據(jù)庫編程、有的突出應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)、有的則要求有咨詢公司或投行相關(guān)的經(jīng)驗(yàn)、有些是希望能找到懂得產(chǎn)品和市場(chǎng)的應(yīng)用型人才。正因?yàn)槿绱耍芏喙緯?huì)針對(duì)自己的業(yè)務(wù)類型和團(tuán)隊(duì)分工,給這群與大數(shù)據(jù)打交道的人一些新的頭銜和定義:數(shù)據(jù)挖掘工程師、大數(shù)據(jù)專家、數(shù)據(jù)研究員、用戶分析專家等都是經(jīng)常在國內(nèi)公司里出現(xiàn)的Title,我們將其統(tǒng)稱為“大數(shù)據(jù)工程師”。

由于國內(nèi)的大數(shù)據(jù)工作還處在一個(gè)有待開發(fā)的階段,因此能從其中挖掘出多少價(jià)值完全取決于工程師的個(gè)人能力。已經(jīng)身處這個(gè)行業(yè)的專家給出了一些人才需求的大體框架,包括要有計(jì)算機(jī)編碼能力、數(shù)學(xué)及統(tǒng)計(jì)學(xué)相關(guān)背景,當(dāng)然如果能對(duì)一些特定領(lǐng)域或行業(yè)有比較深入的了解,對(duì)于其快速判斷并抓準(zhǔn)關(guān)鍵因素則更有幫助。

雖然對(duì)于一些大公司來說,擁有碩博學(xué)歷的公司人是比較好的選擇,不過阿里巴巴集團(tuán)研究員薛貴榮強(qiáng)調(diào),學(xué)歷并不是最主要的因素,能有大規(guī)模處理數(shù)據(jù)的經(jīng)驗(yàn)并且有喜歡在數(shù)據(jù)海洋中尋寶的好奇心會(huì)更適合這個(gè)工作。

除此之外,一個(gè)優(yōu)秀的大數(shù)據(jù)工程師要具備一定的邏輯分析能力,并能迅速定位某個(gè)商業(yè)問題的關(guān)鍵屬性和決定因素。“他得知道什么是相關(guān)的,哪個(gè)是重要的,使用什么樣的數(shù)據(jù)是最有價(jià)值的,如何快速找到每個(gè)業(yè)務(wù)最核心的需求。”聯(lián)合國百度大數(shù)據(jù)聯(lián)合實(shí)驗(yàn)室數(shù)據(jù)科學(xué)家沈志勇說。學(xué)習(xí)能力能幫助大數(shù)據(jù)工程師快速適應(yīng)不同的項(xiàng)目,并在短時(shí)間內(nèi)成為這個(gè)領(lǐng)域的數(shù)據(jù)專家;溝通能力則能讓他們的工作開展地更順利,因?yàn)榇髷?shù)據(jù)工程師的工作主要分為兩種方式:由市場(chǎng)部驅(qū)動(dòng)和由數(shù)據(jù)分析部門驅(qū)動(dòng),前者需要常常向產(chǎn)品經(jīng)理了解開發(fā)需求,后者則需要找運(yùn)營部了解數(shù)據(jù)模型實(shí)際轉(zhuǎn)化的情況。

你可以將以上這些要求看做是成為大數(shù)據(jù)工程師的努力方向,因?yàn)楦鶕?jù)萬寶瑞華管理合伙人顏莉萍(Nicole Yan)的觀察,這是一個(gè)很大的人才缺口。目前國內(nèi)的大數(shù)據(jù)應(yīng)用多集中在互聯(lián)網(wǎng)領(lǐng)域,有超過56%的企業(yè)在籌備發(fā)展大數(shù)據(jù)研究,“未來5年,94%的公司都會(huì)需要數(shù)據(jù)科學(xué)家。”顏莉萍(Nicole Yan)說。因此她也建議一些原本從事與數(shù)據(jù)工作相關(guān)的公司人可以考慮轉(zhuǎn)型。

用阿里巴巴集團(tuán)研究員薛貴榮的話來說,大數(shù)據(jù)工程師就是一群“玩數(shù)據(jù)”的人,玩出數(shù)據(jù)的商業(yè)價(jià)值,讓數(shù)據(jù)變成生產(chǎn)力。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的最大區(qū)別在于,它是在線的、實(shí)時(shí)的,規(guī)模海量且形式不規(guī)整,無章法可循,因此“會(huì)玩”這些數(shù)據(jù)的人就很重要。

沈志勇認(rèn)為如果把大數(shù)據(jù)想象成一座不停累積的礦山,那么大數(shù)據(jù)工程師的工作就是,“第一步,定位并抽取信息所在的數(shù)據(jù)集,相當(dāng)于探礦和采礦。第二步,把它變成直接可以做判斷的信息,相當(dāng)于冶煉。最后是應(yīng)用,把數(shù)據(jù)可視化等。”

因此分析歷史、預(yù)測(cè)未來、優(yōu)化選擇,這是大數(shù)據(jù)工程師在“玩數(shù)據(jù)”時(shí)最重要的三大任務(wù)。通過這三個(gè)工作方向,他們幫助企業(yè)做出更好的商業(yè)決策。

1.找出過去事件的特征

大數(shù)據(jù)工程師一個(gè)很重要的工作,就是通過分析數(shù)據(jù)來找出過去事件的特征。比如,騰訊的數(shù)據(jù)團(tuán)隊(duì)正在搭建一個(gè)數(shù)據(jù)倉庫,把公司所有網(wǎng)絡(luò)平臺(tái)上數(shù)量龐大、不規(guī)整的數(shù)據(jù)信息進(jìn)行梳理,總結(jié)出可供查詢的特征,來支持公司各類業(yè)務(wù)對(duì)數(shù)據(jù)的需求,包括廣告投放、游戲開發(fā)、社交網(wǎng)絡(luò)等。

找出過去事件的特征,最大的作用是可以幫助企業(yè)更好地認(rèn)識(shí)消費(fèi)者。通過分析用戶以往的行為軌跡,就能夠了解這個(gè)人,并預(yù)測(cè)他的行為。“你可以知道他是什么樣的人、他的年紀(jì)、興趣愛好,是不是互聯(lián)網(wǎng)付費(fèi)用戶、喜歡玩什么類型的游戲,平常喜歡在網(wǎng)上做什么事情。”騰訊云計(jì)算有限公司北京研發(fā)中心總經(jīng)理鄭立峰對(duì)《第一財(cái)經(jīng)周刊》說。下一步到了業(yè)務(wù)層面,就可以針對(duì)各類人群推薦相關(guān)服務(wù),比如手游,或是基于不同特征和需求衍生出新的業(yè)務(wù)模式,比如微信的電影票業(yè)務(wù)。

2.預(yù)測(cè)未來可能發(fā)生的事情

通過引入關(guān)鍵因素,大數(shù)據(jù)工程師可以預(yù)測(cè)未來的消費(fèi)趨勢(shì)。在阿里媽媽的營銷平臺(tái)上,工程師正試圖通過引入氣象數(shù)據(jù)來幫助淘寶賣家做生意。“比如今年夏天不熱,很可能某些產(chǎn)品就沒有去年暢銷,除了空調(diào)、電扇,背心、游泳衣等都可能會(huì)受其影響。那么我們就會(huì)建立氣象數(shù)據(jù)和銷售數(shù)據(jù)之間的關(guān)系,找到與之相關(guān)的品類,提前警示賣家周轉(zhuǎn)庫存。”薛貴榮說。

在百度,沈志勇支持“百度預(yù)測(cè)”部分產(chǎn)品的模型研發(fā),試圖用大數(shù)據(jù)為更廣泛的人群服務(wù)。已經(jīng)上線的包括世界杯預(yù)測(cè)、高考預(yù)測(cè)、景點(diǎn)預(yù)測(cè)等。以百度景點(diǎn)預(yù)測(cè)為例,大數(shù)據(jù)工程師需要收集所有可能影響一段時(shí)間內(nèi)景點(diǎn)人流量的關(guān)鍵因素進(jìn)行預(yù)測(cè),并為全國各個(gè)景點(diǎn)未來的擁擠度分級(jí)—在接下來的若干天時(shí)間里,它究竟是暢通、擁擠,還是一般擁擠?

3.找出最優(yōu)化的結(jié)果

根據(jù)不同企業(yè)的業(yè)務(wù)性質(zhì),大數(shù)據(jù)工程師可以通過數(shù)據(jù)分析來達(dá)到不同的目的。

以騰訊來說,鄭立峰認(rèn)為能反映大數(shù)據(jù)工程師工作的最簡單直接的例子就是選項(xiàng)測(cè)試(AB Test),即幫助產(chǎn)品經(jīng)理在A、B兩個(gè)備選方案中做出選擇。在過去,決策者只能依據(jù)經(jīng)驗(yàn)進(jìn)行判斷,但如今大數(shù)據(jù)工程師可以通過大范圍地實(shí)時(shí)測(cè)試—比如,在社交網(wǎng)絡(luò)產(chǎn)品的例子中,讓一半用戶看到A界面,另一半使用B界面,觀察統(tǒng)計(jì)一段時(shí)間內(nèi)的點(diǎn)擊率和轉(zhuǎn)化率,以此幫助市場(chǎng)部做出最終選擇。

作為電商的阿里巴巴,則希望通過大數(shù)據(jù)鎖定精準(zhǔn)的人群,幫助賣家做更好的營銷。“我們更期待的是你能找到這樣一批人,比起現(xiàn)有的用戶,這些人對(duì)產(chǎn)品更感興趣。”薛貴榮說。一個(gè)淘寶的實(shí)例是,某人參賣家原來推廣的目標(biāo)人群是產(chǎn)婦,但工程師通過挖掘數(shù)據(jù)之間的關(guān)聯(lián)性后發(fā)現(xiàn),針對(duì)孕婦群體投放的營銷轉(zhuǎn)化率更高。

需要具備的能力

1.數(shù)學(xué)及統(tǒng)計(jì)學(xué)相關(guān)的背景

就我們采訪過的BAT三家互聯(lián)網(wǎng)大公司來說,對(duì)于大數(shù)據(jù)工程師的要求都是希望是統(tǒng)計(jì)學(xué)和數(shù)學(xué)背景的碩士或博士學(xué)歷。沈志勇認(rèn)為,缺乏理論背景的數(shù)據(jù)工作者,更容易進(jìn)入一個(gè)技能上的危險(xiǎn)區(qū)域(Danger Zone)—一堆數(shù)字,按照不同的數(shù)據(jù)模型和算法總能捯飭出一些結(jié)果來,但如果你不知道那代表什么,就并不是真正有意義的結(jié)果,并且那樣的結(jié)果還容易誤導(dǎo)你。“只有具備一定的理論知識(shí),才能理解模型、復(fù)用模型甚至創(chuàng)新模型,來解決實(shí)際問題。”沈志勇說。

2.計(jì)算機(jī)編碼能力

實(shí)際開發(fā)能力和大規(guī)模的數(shù)據(jù)處理能力是作為大數(shù)據(jù)工程師的一些必備要素。“因?yàn)樵S多數(shù)據(jù)的價(jià)值來自于挖掘的過程,你必須親自動(dòng)手才能發(fā)現(xiàn)金子的價(jià)值。”鄭立峰說。

舉例來說,現(xiàn)在人們?cè)谏缃痪W(wǎng)絡(luò)上所產(chǎn)生的許多記錄都是非結(jié)構(gòu)化的數(shù)據(jù),如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數(shù)據(jù)工程師親自挖掘。即使在某些團(tuán)隊(duì)中,大數(shù)據(jù)工程師的職責(zé)以商業(yè)分析為主,但也要熟悉計(jì)算機(jī)處理大數(shù)據(jù)的方式。

3.對(duì)特定應(yīng)用領(lǐng)域或行業(yè)的知識(shí)

在顏莉萍(Nicole Yan)看來,大數(shù)據(jù)工程師這個(gè)角色很重要的一點(diǎn)是,不能脫離市場(chǎng),因?yàn)榇髷?shù)據(jù)只有和特定領(lǐng)域的應(yīng)用結(jié)合起來才能產(chǎn)生價(jià)值。所以,在某個(gè)或多個(gè)垂直行業(yè)的經(jīng)歷能為應(yīng)聘者積累對(duì)行業(yè)的認(rèn)知,對(duì)于之后成為大數(shù)據(jù)工程師有很大幫助,因此這也是應(yīng)聘這個(gè)崗位時(shí)較有說服力的加分項(xiàng)。

“他不能只是懂得數(shù)據(jù),還要有商業(yè)頭腦,不論對(duì)零售、醫(yī)藥、游戲還是旅游等行業(yè),能就其中某些領(lǐng)域有一定的理解,最好還是與公司的業(yè)務(wù)方向一致的,”就此薛貴榮還打了個(gè)比方,“過去我們說一些奢侈品店員勢(shì)利,看人一眼就知道買得起買不起,但這群人恰恰是有敏銳度的,我們認(rèn)為他們是這個(gè)行業(yè)的專家。又比如對(duì)醫(yī)療行業(yè)了解的人,他在考慮醫(yī)療保險(xiǎn)業(yè)務(wù)時(shí),不僅會(huì)和人們醫(yī)院看病的記錄相關(guān),也會(huì)考慮飲食數(shù)據(jù),這些都是基于對(duì)該領(lǐng)域的了解。”

職業(yè)發(fā)展

1.如何成為大數(shù)據(jù)工程師

由于目前大數(shù)據(jù)人才匱乏,對(duì)于公司來說,很難招聘到合適的人才—既要有高學(xué)歷,同時(shí)最好還有大規(guī)模數(shù)據(jù)處理經(jīng)驗(yàn)。因此很多企業(yè)會(huì)通過內(nèi)部挖掘。

2014年8月,阿里巴巴舉辦了一個(gè)大數(shù)據(jù)競賽,把天貓平臺(tái)上的數(shù)據(jù)拿出來,去除敏感問題后,放到云計(jì)算平臺(tái)上交予7000多支隊(duì)伍進(jìn)行比賽,比賽分為內(nèi)部賽和外部賽。“通過這個(gè)方式來激勵(lì)內(nèi)部員工,同時(shí)也發(fā)現(xiàn)外部人才,讓各行業(yè)的大數(shù)據(jù)工程師涌現(xiàn)出來。”

顏莉萍(Nicole Yan)建議,目前長期從事數(shù)據(jù)庫管理、挖掘、編程工作的人,包括傳統(tǒng)的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過數(shù)據(jù)來進(jìn)行判斷決策的管理者,比如某些領(lǐng)域的運(yùn)營經(jīng)理等,都可以嘗試該職位,而各個(gè)領(lǐng)域的達(dá)人只要學(xué)會(huì)運(yùn)用數(shù)據(jù),也可以成為大數(shù)據(jù)工程師。

2.薪酬待遇

作為IT類職業(yè)中的“大熊貓”,大數(shù)據(jù)工程師的收入待遇可以說達(dá)到了同類的頂級(jí)。根據(jù)顏莉萍(Nicole Yan)的觀察,國內(nèi)IT、通訊、行業(yè)招聘中,有10%都是和大數(shù)據(jù)相關(guān)的,且比例還在上升。顏莉萍(Nicole Yan)表示,“大數(shù)據(jù)時(shí)代的到來很突然,在國內(nèi)發(fā)展勢(shì)頭激進(jìn),而人才卻非常有限,現(xiàn)在完全是供不應(yīng)求的狀況。”在美國,大數(shù)據(jù)工程師平均每年薪酬高達(dá)17.5萬美元,而據(jù)了解,在國內(nèi)頂尖互聯(lián)網(wǎng)類公司,同一個(gè)級(jí)別大數(shù)據(jù)工程師的薪酬可能要比其他職位高20%至30%,且頗受企業(yè)重視。

3.職業(yè)發(fā)展路徑

由于大數(shù)據(jù)人才數(shù)量較少,因此大多數(shù)公司的數(shù)據(jù)部門一般都是扁平化的層級(jí)模式,大致分為數(shù)據(jù)分析師、資深研究員、部門總監(jiān)3個(gè)級(jí)別。大公司可能按照應(yīng)用領(lǐng)域的維度來劃分不同團(tuán)隊(duì),而在小公司則需要身兼數(shù)職。有些特別強(qiáng)調(diào)大數(shù)據(jù)戰(zhàn)略的互聯(lián)網(wǎng)公司則會(huì)另設(shè)最高職位—如阿里巴巴的首席數(shù)據(jù)官。“這個(gè)職位的大部分人會(huì)往研究方向發(fā)展,成為重要數(shù)據(jù)戰(zhàn)略人才。”顏莉萍(Nicole Yan)說。另一方面,大數(shù)據(jù)工程師對(duì)商業(yè)和產(chǎn)品的理解,并不亞于業(yè)務(wù)部門員工,因此也可轉(zhuǎn)向產(chǎn)品部或市場(chǎng)部,乃至上升為公司的高級(jí)管理層。

關(guān)鍵字:Facebook數(shù)據(jù)挖掘

本文摘自:大數(shù)據(jù)觀察

x 如何成為一名優(yōu)秀的大數(shù)據(jù)工程師 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

如何成為一名優(yōu)秀的大數(shù)據(jù)工程師

責(zé)任編輯:editor005 |來源:企業(yè)網(wǎng)D1Net  2016-08-03 14:28:05 本文摘自:大數(shù)據(jù)觀察

大數(shù)據(jù)是眼下非常時(shí)髦的技術(shù)名詞,與此同時(shí)自然也催生出了一些與大數(shù)據(jù)處理相關(guān)的職業(yè),通過對(duì)數(shù)據(jù)的挖掘分析來影響企業(yè)的商業(yè)決策。

這群人在國外被叫做數(shù)據(jù)科學(xué)家(Data Scientist),這個(gè)頭銜最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他們后來分別成為了領(lǐng)英(LinkedIn)和Facebook數(shù)據(jù)科學(xué)團(tuán)隊(duì)的負(fù)責(zé)人。而數(shù)據(jù)科學(xué)家這個(gè)職位目前也已經(jīng)在美國傳統(tǒng)的電信、零售、金融、制造、物流、醫(yī)療、教育等行業(yè)里開始創(chuàng)造價(jià)值。

大數(shù)據(jù)

不過在國內(nèi),大數(shù)據(jù)的應(yīng)用才剛剛萌芽,人才市場(chǎng)還不那么成熟,“你很難期望有一個(gè)全才來完成整個(gè)鏈條上的所有環(huán)節(jié)。更多公司會(huì)根據(jù)自己已有的資源和短板,招聘能和現(xiàn)有團(tuán)隊(duì)互補(bǔ)的人才。”領(lǐng)英(LinkedIn)中國商務(wù)分析及戰(zhàn)略總監(jiān)王昱堯?qū)Α兜谝回?cái)經(jīng)周刊》說。

數(shù)據(jù)工程師是做什么的?

于是每家公司對(duì)大數(shù)據(jù)工作的要求不盡相同:有的強(qiáng)調(diào)數(shù)據(jù)庫編程、有的突出應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)、有的則要求有咨詢公司或投行相關(guān)的經(jīng)驗(yàn)、有些是希望能找到懂得產(chǎn)品和市場(chǎng)的應(yīng)用型人才。正因?yàn)槿绱耍芏喙緯?huì)針對(duì)自己的業(yè)務(wù)類型和團(tuán)隊(duì)分工,給這群與大數(shù)據(jù)打交道的人一些新的頭銜和定義:數(shù)據(jù)挖掘工程師、大數(shù)據(jù)專家、數(shù)據(jù)研究員、用戶分析專家等都是經(jīng)常在國內(nèi)公司里出現(xiàn)的Title,我們將其統(tǒng)稱為“大數(shù)據(jù)工程師”。

由于國內(nèi)的大數(shù)據(jù)工作還處在一個(gè)有待開發(fā)的階段,因此能從其中挖掘出多少價(jià)值完全取決于工程師的個(gè)人能力。已經(jīng)身處這個(gè)行業(yè)的專家給出了一些人才需求的大體框架,包括要有計(jì)算機(jī)編碼能力、數(shù)學(xué)及統(tǒng)計(jì)學(xué)相關(guān)背景,當(dāng)然如果能對(duì)一些特定領(lǐng)域或行業(yè)有比較深入的了解,對(duì)于其快速判斷并抓準(zhǔn)關(guān)鍵因素則更有幫助。

雖然對(duì)于一些大公司來說,擁有碩博學(xué)歷的公司人是比較好的選擇,不過阿里巴巴集團(tuán)研究員薛貴榮強(qiáng)調(diào),學(xué)歷并不是最主要的因素,能有大規(guī)模處理數(shù)據(jù)的經(jīng)驗(yàn)并且有喜歡在數(shù)據(jù)海洋中尋寶的好奇心會(huì)更適合這個(gè)工作。

除此之外,一個(gè)優(yōu)秀的大數(shù)據(jù)工程師要具備一定的邏輯分析能力,并能迅速定位某個(gè)商業(yè)問題的關(guān)鍵屬性和決定因素。“他得知道什么是相關(guān)的,哪個(gè)是重要的,使用什么樣的數(shù)據(jù)是最有價(jià)值的,如何快速找到每個(gè)業(yè)務(wù)最核心的需求。”聯(lián)合國百度大數(shù)據(jù)聯(lián)合實(shí)驗(yàn)室數(shù)據(jù)科學(xué)家沈志勇說。學(xué)習(xí)能力能幫助大數(shù)據(jù)工程師快速適應(yīng)不同的項(xiàng)目,并在短時(shí)間內(nèi)成為這個(gè)領(lǐng)域的數(shù)據(jù)專家;溝通能力則能讓他們的工作開展地更順利,因?yàn)榇髷?shù)據(jù)工程師的工作主要分為兩種方式:由市場(chǎng)部驅(qū)動(dòng)和由數(shù)據(jù)分析部門驅(qū)動(dòng),前者需要常常向產(chǎn)品經(jīng)理了解開發(fā)需求,后者則需要找運(yùn)營部了解數(shù)據(jù)模型實(shí)際轉(zhuǎn)化的情況。

你可以將以上這些要求看做是成為大數(shù)據(jù)工程師的努力方向,因?yàn)楦鶕?jù)萬寶瑞華管理合伙人顏莉萍(Nicole Yan)的觀察,這是一個(gè)很大的人才缺口。目前國內(nèi)的大數(shù)據(jù)應(yīng)用多集中在互聯(lián)網(wǎng)領(lǐng)域,有超過56%的企業(yè)在籌備發(fā)展大數(shù)據(jù)研究,“未來5年,94%的公司都會(huì)需要數(shù)據(jù)科學(xué)家。”顏莉萍(Nicole Yan)說。因此她也建議一些原本從事與數(shù)據(jù)工作相關(guān)的公司人可以考慮轉(zhuǎn)型。

用阿里巴巴集團(tuán)研究員薛貴榮的話來說,大數(shù)據(jù)工程師就是一群“玩數(shù)據(jù)”的人,玩出數(shù)據(jù)的商業(yè)價(jià)值,讓數(shù)據(jù)變成生產(chǎn)力。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的最大區(qū)別在于,它是在線的、實(shí)時(shí)的,規(guī)模海量且形式不規(guī)整,無章法可循,因此“會(huì)玩”這些數(shù)據(jù)的人就很重要。

沈志勇認(rèn)為如果把大數(shù)據(jù)想象成一座不停累積的礦山,那么大數(shù)據(jù)工程師的工作就是,“第一步,定位并抽取信息所在的數(shù)據(jù)集,相當(dāng)于探礦和采礦。第二步,把它變成直接可以做判斷的信息,相當(dāng)于冶煉。最后是應(yīng)用,把數(shù)據(jù)可視化等。”

因此分析歷史、預(yù)測(cè)未來、優(yōu)化選擇,這是大數(shù)據(jù)工程師在“玩數(shù)據(jù)”時(shí)最重要的三大任務(wù)。通過這三個(gè)工作方向,他們幫助企業(yè)做出更好的商業(yè)決策。

1.找出過去事件的特征

大數(shù)據(jù)工程師一個(gè)很重要的工作,就是通過分析數(shù)據(jù)來找出過去事件的特征。比如,騰訊的數(shù)據(jù)團(tuán)隊(duì)正在搭建一個(gè)數(shù)據(jù)倉庫,把公司所有網(wǎng)絡(luò)平臺(tái)上數(shù)量龐大、不規(guī)整的數(shù)據(jù)信息進(jìn)行梳理,總結(jié)出可供查詢的特征,來支持公司各類業(yè)務(wù)對(duì)數(shù)據(jù)的需求,包括廣告投放、游戲開發(fā)、社交網(wǎng)絡(luò)等。

找出過去事件的特征,最大的作用是可以幫助企業(yè)更好地認(rèn)識(shí)消費(fèi)者。通過分析用戶以往的行為軌跡,就能夠了解這個(gè)人,并預(yù)測(cè)他的行為。“你可以知道他是什么樣的人、他的年紀(jì)、興趣愛好,是不是互聯(lián)網(wǎng)付費(fèi)用戶、喜歡玩什么類型的游戲,平常喜歡在網(wǎng)上做什么事情。”騰訊云計(jì)算有限公司北京研發(fā)中心總經(jīng)理鄭立峰對(duì)《第一財(cái)經(jīng)周刊》說。下一步到了業(yè)務(wù)層面,就可以針對(duì)各類人群推薦相關(guān)服務(wù),比如手游,或是基于不同特征和需求衍生出新的業(yè)務(wù)模式,比如微信的電影票業(yè)務(wù)。

2.預(yù)測(cè)未來可能發(fā)生的事情

通過引入關(guān)鍵因素,大數(shù)據(jù)工程師可以預(yù)測(cè)未來的消費(fèi)趨勢(shì)。在阿里媽媽的營銷平臺(tái)上,工程師正試圖通過引入氣象數(shù)據(jù)來幫助淘寶賣家做生意。“比如今年夏天不熱,很可能某些產(chǎn)品就沒有去年暢銷,除了空調(diào)、電扇,背心、游泳衣等都可能會(huì)受其影響。那么我們就會(huì)建立氣象數(shù)據(jù)和銷售數(shù)據(jù)之間的關(guān)系,找到與之相關(guān)的品類,提前警示賣家周轉(zhuǎn)庫存。”薛貴榮說。

在百度,沈志勇支持“百度預(yù)測(cè)”部分產(chǎn)品的模型研發(fā),試圖用大數(shù)據(jù)為更廣泛的人群服務(wù)。已經(jīng)上線的包括世界杯預(yù)測(cè)、高考預(yù)測(cè)、景點(diǎn)預(yù)測(cè)等。以百度景點(diǎn)預(yù)測(cè)為例,大數(shù)據(jù)工程師需要收集所有可能影響一段時(shí)間內(nèi)景點(diǎn)人流量的關(guān)鍵因素進(jìn)行預(yù)測(cè),并為全國各個(gè)景點(diǎn)未來的擁擠度分級(jí)—在接下來的若干天時(shí)間里,它究竟是暢通、擁擠,還是一般擁擠?

3.找出最優(yōu)化的結(jié)果

根據(jù)不同企業(yè)的業(yè)務(wù)性質(zhì),大數(shù)據(jù)工程師可以通過數(shù)據(jù)分析來達(dá)到不同的目的。

以騰訊來說,鄭立峰認(rèn)為能反映大數(shù)據(jù)工程師工作的最簡單直接的例子就是選項(xiàng)測(cè)試(AB Test),即幫助產(chǎn)品經(jīng)理在A、B兩個(gè)備選方案中做出選擇。在過去,決策者只能依據(jù)經(jīng)驗(yàn)進(jìn)行判斷,但如今大數(shù)據(jù)工程師可以通過大范圍地實(shí)時(shí)測(cè)試—比如,在社交網(wǎng)絡(luò)產(chǎn)品的例子中,讓一半用戶看到A界面,另一半使用B界面,觀察統(tǒng)計(jì)一段時(shí)間內(nèi)的點(diǎn)擊率和轉(zhuǎn)化率,以此幫助市場(chǎng)部做出最終選擇。

作為電商的阿里巴巴,則希望通過大數(shù)據(jù)鎖定精準(zhǔn)的人群,幫助賣家做更好的營銷。“我們更期待的是你能找到這樣一批人,比起現(xiàn)有的用戶,這些人對(duì)產(chǎn)品更感興趣。”薛貴榮說。一個(gè)淘寶的實(shí)例是,某人參賣家原來推廣的目標(biāo)人群是產(chǎn)婦,但工程師通過挖掘數(shù)據(jù)之間的關(guān)聯(lián)性后發(fā)現(xiàn),針對(duì)孕婦群體投放的營銷轉(zhuǎn)化率更高。

需要具備的能力

1.數(shù)學(xué)及統(tǒng)計(jì)學(xué)相關(guān)的背景

就我們采訪過的BAT三家互聯(lián)網(wǎng)大公司來說,對(duì)于大數(shù)據(jù)工程師的要求都是希望是統(tǒng)計(jì)學(xué)和數(shù)學(xué)背景的碩士或博士學(xué)歷。沈志勇認(rèn)為,缺乏理論背景的數(shù)據(jù)工作者,更容易進(jìn)入一個(gè)技能上的危險(xiǎn)區(qū)域(Danger Zone)—一堆數(shù)字,按照不同的數(shù)據(jù)模型和算法總能捯飭出一些結(jié)果來,但如果你不知道那代表什么,就并不是真正有意義的結(jié)果,并且那樣的結(jié)果還容易誤導(dǎo)你。“只有具備一定的理論知識(shí),才能理解模型、復(fù)用模型甚至創(chuàng)新模型,來解決實(shí)際問題。”沈志勇說。

2.計(jì)算機(jī)編碼能力

實(shí)際開發(fā)能力和大規(guī)模的數(shù)據(jù)處理能力是作為大數(shù)據(jù)工程師的一些必備要素。“因?yàn)樵S多數(shù)據(jù)的價(jià)值來自于挖掘的過程,你必須親自動(dòng)手才能發(fā)現(xiàn)金子的價(jià)值。”鄭立峰說。

舉例來說,現(xiàn)在人們?cè)谏缃痪W(wǎng)絡(luò)上所產(chǎn)生的許多記錄都是非結(jié)構(gòu)化的數(shù)據(jù),如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數(shù)據(jù)工程師親自挖掘。即使在某些團(tuán)隊(duì)中,大數(shù)據(jù)工程師的職責(zé)以商業(yè)分析為主,但也要熟悉計(jì)算機(jī)處理大數(shù)據(jù)的方式。

3.對(duì)特定應(yīng)用領(lǐng)域或行業(yè)的知識(shí)

在顏莉萍(Nicole Yan)看來,大數(shù)據(jù)工程師這個(gè)角色很重要的一點(diǎn)是,不能脫離市場(chǎng),因?yàn)榇髷?shù)據(jù)只有和特定領(lǐng)域的應(yīng)用結(jié)合起來才能產(chǎn)生價(jià)值。所以,在某個(gè)或多個(gè)垂直行業(yè)的經(jīng)歷能為應(yīng)聘者積累對(duì)行業(yè)的認(rèn)知,對(duì)于之后成為大數(shù)據(jù)工程師有很大幫助,因此這也是應(yīng)聘這個(gè)崗位時(shí)較有說服力的加分項(xiàng)。

“他不能只是懂得數(shù)據(jù),還要有商業(yè)頭腦,不論對(duì)零售、醫(yī)藥、游戲還是旅游等行業(yè),能就其中某些領(lǐng)域有一定的理解,最好還是與公司的業(yè)務(wù)方向一致的,”就此薛貴榮還打了個(gè)比方,“過去我們說一些奢侈品店員勢(shì)利,看人一眼就知道買得起買不起,但這群人恰恰是有敏銳度的,我們認(rèn)為他們是這個(gè)行業(yè)的專家。又比如對(duì)醫(yī)療行業(yè)了解的人,他在考慮醫(yī)療保險(xiǎn)業(yè)務(wù)時(shí),不僅會(huì)和人們醫(yī)院看病的記錄相關(guān),也會(huì)考慮飲食數(shù)據(jù),這些都是基于對(duì)該領(lǐng)域的了解。”

職業(yè)發(fā)展

1.如何成為大數(shù)據(jù)工程師

由于目前大數(shù)據(jù)人才匱乏,對(duì)于公司來說,很難招聘到合適的人才—既要有高學(xué)歷,同時(shí)最好還有大規(guī)模數(shù)據(jù)處理經(jīng)驗(yàn)。因此很多企業(yè)會(huì)通過內(nèi)部挖掘。

2014年8月,阿里巴巴舉辦了一個(gè)大數(shù)據(jù)競賽,把天貓平臺(tái)上的數(shù)據(jù)拿出來,去除敏感問題后,放到云計(jì)算平臺(tái)上交予7000多支隊(duì)伍進(jìn)行比賽,比賽分為內(nèi)部賽和外部賽。“通過這個(gè)方式來激勵(lì)內(nèi)部員工,同時(shí)也發(fā)現(xiàn)外部人才,讓各行業(yè)的大數(shù)據(jù)工程師涌現(xiàn)出來。”

顏莉萍(Nicole Yan)建議,目前長期從事數(shù)據(jù)庫管理、挖掘、編程工作的人,包括傳統(tǒng)的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過數(shù)據(jù)來進(jìn)行判斷決策的管理者,比如某些領(lǐng)域的運(yùn)營經(jīng)理等,都可以嘗試該職位,而各個(gè)領(lǐng)域的達(dá)人只要學(xué)會(huì)運(yùn)用數(shù)據(jù),也可以成為大數(shù)據(jù)工程師。

2.薪酬待遇

作為IT類職業(yè)中的“大熊貓”,大數(shù)據(jù)工程師的收入待遇可以說達(dá)到了同類的頂級(jí)。根據(jù)顏莉萍(Nicole Yan)的觀察,國內(nèi)IT、通訊、行業(yè)招聘中,有10%都是和大數(shù)據(jù)相關(guān)的,且比例還在上升。顏莉萍(Nicole Yan)表示,“大數(shù)據(jù)時(shí)代的到來很突然,在國內(nèi)發(fā)展勢(shì)頭激進(jìn),而人才卻非常有限,現(xiàn)在完全是供不應(yīng)求的狀況。”在美國,大數(shù)據(jù)工程師平均每年薪酬高達(dá)17.5萬美元,而據(jù)了解,在國內(nèi)頂尖互聯(lián)網(wǎng)類公司,同一個(gè)級(jí)別大數(shù)據(jù)工程師的薪酬可能要比其他職位高20%至30%,且頗受企業(yè)重視。

3.職業(yè)發(fā)展路徑

由于大數(shù)據(jù)人才數(shù)量較少,因此大多數(shù)公司的數(shù)據(jù)部門一般都是扁平化的層級(jí)模式,大致分為數(shù)據(jù)分析師、資深研究員、部門總監(jiān)3個(gè)級(jí)別。大公司可能按照應(yīng)用領(lǐng)域的維度來劃分不同團(tuán)隊(duì),而在小公司則需要身兼數(shù)職。有些特別強(qiáng)調(diào)大數(shù)據(jù)戰(zhàn)略的互聯(lián)網(wǎng)公司則會(huì)另設(shè)最高職位—如阿里巴巴的首席數(shù)據(jù)官。“這個(gè)職位的大部分人會(huì)往研究方向發(fā)展,成為重要數(shù)據(jù)戰(zhàn)略人才。”顏莉萍(Nicole Yan)說。另一方面,大數(shù)據(jù)工程師對(duì)商業(yè)和產(chǎn)品的理解,并不亞于業(yè)務(wù)部門員工,因此也可轉(zhuǎn)向產(chǎn)品部或市場(chǎng)部,乃至上升為公司的高級(jí)管理層。

關(guān)鍵字:Facebook數(shù)據(jù)挖掘

本文摘自:大數(shù)據(jù)觀察

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 原平市| 五大连池市| 延寿县| 聂荣县| 肇州县| 重庆市| 湖州市| 五河县| 望奎县| 万年县| 雅安市| 东兴市| 龙泉市| 神农架林区| 莱芜市| 高密市| 治多县| 嵊州市| 汉源县| 渭源县| 新源县| 阿合奇县| 阜阳市| 舞阳县| 秭归县| 凌云县| 正阳县| 万安县| 灯塔市| 清水县| 安陆市| 农安县| 黎平县| 延吉市| 和政县| 义乌市| 嘉善县| 绍兴市| 武隆县| 班玛县| 镇雄县|