對于數(shù)據(jù)科學(xué)家這一職業(yè),你了解多少?
——這是個(gè)被大公司追捧的職位,供不應(yīng)求,待遇特別高。職場里“數(shù)據(jù)科學(xué)家”的招聘相當(dāng)火爆,各種線上線下的培訓(xùn)課程野蠻生長。
這是大多數(shù)人對“數(shù)據(jù)科學(xué)家”的印象。
但是,怎樣才能成為數(shù)據(jù)科學(xué)家?或者說,一個(gè)合格的數(shù)據(jù)科學(xué)家需要具備哪些技能和素養(yǎng)?
具有十年從業(yè)經(jīng)驗(yàn)的亞馬遜資深數(shù)據(jù)分析師 Karolis Urbonas,經(jīng)常被人請教這一問題。這促使他回顧自己的職業(yè)生涯——“我是怎么一步步走到現(xiàn)在的?”“我是怎么成為數(shù)據(jù)科學(xué)家的?”以及,從自我定位和自省的角度反思:“我是一名數(shù)據(jù)科學(xué)家嗎?”
自我反思的答案,被他總結(jié)成了這篇文章。由雷鋒網(wǎng)獻(xiàn)給想要入門數(shù)據(jù)科學(xué)的童鞋們。
Karolis Urbonas
Karolis Urbonas:我的職業(yè)生涯從投資公司的證券分析師起步,那時(shí)候主要用的還是 Excel;之后轉(zhuǎn)到銀行業(yè)做商務(wù)智能(BI,即 business inelligence);再之后去做咨詢;最后才來搞所謂的“數(shù)據(jù)科學(xué)”——開發(fā)預(yù)測模型,擺弄大數(shù)據(jù),寫代碼來做數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。那時(shí)大多數(shù)人把這工作稱之為數(shù)據(jù)挖掘。
當(dāng)數(shù)據(jù)科學(xué)變成一股熱潮,我開始試著思索,它和我一直在做的工作有什么不同。也許我應(yīng)該學(xué)習(xí)一些新技能,成為真正的“數(shù)據(jù)科學(xué)家”,而不是一個(gè)“搞分析”的人?
和所有人一樣,我開始修習(xí)多門課程,讀很多書,修習(xí)數(shù)據(jù)科學(xué)專業(yè)(和大多數(shù)人一樣,沒有一樣是最終做到底的),寫了一堆代碼。我當(dāng)時(shí)的目標(biāo)并不只是成為數(shù)據(jù)科學(xué)家,而是成為下面這副數(shù)據(jù)科學(xué)韋恩圖中間的“那個(gè)”數(shù)據(jù)科學(xué)家:
這幅圖在數(shù)據(jù)科學(xué)圈子里稱得上是大名鼎鼎。三個(gè)大色塊分別是:綠色—數(shù)學(xué)、統(tǒng)計(jì)學(xué)知識,紫色—資深專家水平,粉色—黑客技術(shù)。中間的小色塊是三大領(lǐng)域的重合區(qū)域,分別代表:中上黃綠色塊—機(jī)器學(xué)習(xí),右下墨綠色塊—傳統(tǒng)研究,左下紫色塊—危險(xiǎn)地帶,中央灰色塊—數(shù)據(jù)科學(xué)家。
但我后來了解到,圖中央的那一撮“獨(dú)角獸”(中間“數(shù)據(jù)科學(xué)家”色塊里的這幫人在圈內(nèi)被稱為獨(dú)角獸)在現(xiàn)實(shí)中極其稀少。即便真存在這種人,也大概會(huì)是對各個(gè)領(lǐng)域都有涉獵、但沒有一門精通的“通才”,而非專家。
如今,我在亞馬遜帶領(lǐng)一支極富才華的數(shù)據(jù)科學(xué)團(tuán)隊(duì),每天搞所謂的大數(shù)據(jù)。因此我已把自己看做是一名數(shù)據(jù)科學(xué)家。但我認(rèn)為,這行的水太渾(指的信息方面)、尤其對于新人來說很多問題不夠清楚明白。當(dāng)然,數(shù)據(jù)科學(xué)有很多高深復(fù)雜的分支,比如 AI 、機(jī)器人學(xué)、計(jì)算機(jī)視覺、語音識別等等(雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))注:AI 出身的學(xué)者恐怕會(huì)把這些全都看做是 AI 的分支,學(xué)科視角不同)。鉆研這些領(lǐng)域全都需要相當(dāng)高的技術(shù)、數(shù)學(xué)造詣,經(jīng)常還需要一兩個(gè) PhD 學(xué)位。但如果你只是想要進(jìn)入幾年前被稱為商業(yè)/數(shù)據(jù)分析師的數(shù)據(jù)科學(xué)角色,并在企業(yè)工作,這是四條幫助你在這個(gè)行當(dāng)生存下去的建議:
第一步
明確你的優(yōu)先目標(biāo)和動(dòng)機(jī),客觀評估所掌握的技能,并據(jù)此設(shè)立現(xiàn)實(shí)的目標(biāo)。
數(shù)據(jù)科學(xué)中有各種職業(yè)角色,清楚你現(xiàn)在的知識技能儲(chǔ)備,以給自己一個(gè)合理的定位十分重要。假設(shè)你是一個(gè)想要改變職業(yè)軌跡的 HR,或許你應(yīng)該學(xué)習(xí) HR 數(shù)據(jù)分析。假設(shè)你是律師,則可鉆研法學(xué)界的數(shù)據(jù)應(yīng)用。事實(shí)上,現(xiàn)在所有的行業(yè)和商務(wù)職能都迫切需要更深層次的洞察力,數(shù)據(jù)科學(xué)技術(shù)正在被普遍地采用。
如果你已經(jīng)有一份工作,可以想辦法理解工作中哪些環(huán)節(jié)可用數(shù)據(jù)優(yōu)化,哪些問題可利用數(shù)據(jù)解決,然后去學(xué)習(xí)怎么做。這會(huì)是一個(gè)逐步推進(jìn)、相對漫長的過程。但你能保住飯碗,并且能從現(xiàn)實(shí)任務(wù)中學(xué)習(xí)。如果你是應(yīng)屆生或者在校生,你學(xué)習(xí)數(shù)據(jù)科學(xué)的時(shí)機(jī)堪稱完美:你有大把機(jī)會(huì)找出自己最喜歡、最感興趣的領(lǐng)域——電影?音樂?汽車?普通人想象不出來這些行業(yè)雇傭了多少數(shù)據(jù)科學(xué)家。但最重要的,這些人都對所處領(lǐng)域心懷大愛。
第二步
打基礎(chǔ)。
數(shù)據(jù)科學(xué)的各個(gè)細(xì)分領(lǐng)域之間差異很大,但底層技能都是差不多的。有三個(gè)領(lǐng)域你必須學(xué)好,并打下牢固基礎(chǔ):數(shù)據(jù)分析,統(tǒng)計(jì)學(xué)和寫代碼。你并不需要在每個(gè)學(xué)科都成為大師,但要牢固掌握這三個(gè)領(lǐng)域的基礎(chǔ)知識和技巧。
(a)關(guān)于數(shù)據(jù)分析
你需要理解基本的分析技巧,并進(jìn)行大量練習(xí)——比如數(shù)據(jù)表是什么;怎么合并數(shù)據(jù)表;對于按照特定方式而組織的數(shù)據(jù),主流分析技巧是什么;怎么創(chuàng)建數(shù)據(jù)集的摘要視圖(summary views),怎么從中得出初步結(jié)論;探索性數(shù)據(jù)分析是什么;哪種可視化方法能幫你理解數(shù)據(jù)并從中學(xué)習(xí)。這些都很基礎(chǔ),但相信我——掌握了這些之后,你就有了任何數(shù)據(jù)科學(xué)工作所必須的基本技能。
(b)關(guān)于統(tǒng)計(jì)學(xué)
要掌握統(tǒng)計(jì)學(xué)入門知識——比如,什么時(shí)候用平均數(shù),而什么時(shí)候要選擇中位數(shù);什么情況下用標(biāo)準(zhǔn)差,什么情況下用它完全沒意義;為什么平均值會(huì)“騙人”,但仍然是最常用的總計(jì)價(jià)值。我說“入門知識”
的時(shí)候,我真的指的是入門。除非你是個(gè)數(shù)學(xué)家,有志成為計(jì)量經(jīng)濟(jì)學(xué)家——那么,請盡情學(xué)習(xí)高級統(tǒng)計(jì)學(xué)。如果你沒有數(shù)學(xué)專業(yè) PhD,你只需要花一些時(shí)間,保持耐心,直到對基礎(chǔ)統(tǒng)計(jì)學(xué)和概率論有一個(gè)不錯(cuò)的掌握。
(c)寫代碼
學(xué)編程是最老套的建議,但的確很靠譜。
你應(yīng)該從學(xué)習(xí)用 SQL 查詢數(shù)據(jù)庫開始——不管你信不信,數(shù)據(jù)科學(xué)團(tuán)隊(duì)的大部分工作時(shí)間,是花費(fèi)在數(shù)據(jù)的“ pulling”和準(zhǔn)備上,而這需要通過 SQL 完成。你還需要學(xué)一門數(shù)據(jù)分析語言(從一門語言開始),R 或 Python 都很合適——對其中一門語言的掌握,會(huì)給你的職業(yè)選擇帶來很大不同,許多職位的招聘要求會(huì)有這兩門語言,雖然不是全部。一開始,你可以聚焦于學(xué)習(xí)語言的基礎(chǔ),然后再專注鉆研如何用它來搞數(shù)據(jù)分析。另外,在這行立足并不需要你成為一個(gè)程序猿——你只需要知道怎么用程序語言來對數(shù)據(jù)進(jìn)行分析和可視化。
第三步
數(shù)據(jù)科學(xué)是一門解決實(shí)際問題的學(xué)問——你需要找到問題并解決它。
職業(yè)生涯中我逐漸體會(huì)到,成為一名合格數(shù)據(jù)科學(xué)家的最基本要求,是要不停問問題,不停尋找需要解決的問題。我不建議你每時(shí)每刻都去尋找問題——這或許會(huì)對心理健康造成負(fù)面影響。但若下決定干這一行,你就要做好準(zhǔn)備成為一個(gè)“問題解決專業(yè)戶”,并且像福爾摩斯或者柯南一樣鍥而不舍。
我建議從小問題開始,找出你的生命中能受益于數(shù)據(jù)分析的東西——你會(huì)為生活中的各種數(shù)據(jù)之豐富感到驚訝(即便是難以啟齒的數(shù)據(jù))。或許你會(huì)開始分析你的購物習(xí)慣,找出你 email 中的情感流露模式,或者創(chuàng)建漂亮的圖表追蹤家鄉(xiāng)城市的財(cái)政狀況。數(shù)據(jù)科學(xué)家的責(zé)任是“質(zhì)疑一切,不斷發(fā)問”:比如,這個(gè)市場營銷項(xiàng)目是否有效?有沒有值得注意的行業(yè)趨勢?公司產(chǎn)品是否表現(xiàn)不佳需要下馬?合作伙伴給的折扣是否合理?這些問題會(huì)成為數(shù)據(jù)科學(xué)家眼中的假設(shè),需要用數(shù)據(jù)分析進(jìn)行證實(shí)或者證偽。假設(shè)( hypotheses)是數(shù)據(jù)科學(xué)工作的原材料,你能解決、解釋的假設(shè)越多,你的能力越高。
第四步
開始實(shí)干,而不是把時(shí)間精力浪費(fèi)在計(jì)劃“做什么”和“怎么做”上面。
這適用于任何學(xué)習(xí)活動(dòng),但對數(shù)據(jù)科學(xué)來說尤其貼切。新人們,請確保從學(xué)習(xí)的第一天開始你就在“做”。在這一行,把真正的學(xué)習(xí)晾在一邊,而只是“讀關(guān)于數(shù)據(jù)科學(xué)的東西”,“讀應(yīng)該怎么做”,是個(gè)非常普遍、非常容易犯的錯(cuò)誤(我自己一開始也是這樣)。很多人復(fù)制粘貼書里的數(shù)據(jù)分析代碼,然后在非常簡單的數(shù)據(jù)集上運(yùn)行,把這作為練習(xí)。相信我,現(xiàn)實(shí)世界里你永遠(yuǎn)不會(huì)遇到這么簡單的數(shù)據(jù)集。
對于你所掌握的知識和技能,確保把它們用于你所感興趣的領(lǐng)域,然后,你會(huì)體會(huì)到數(shù)據(jù)科學(xué)的奇妙之處:
寫下你的第一行代碼,看到它如何失敗,陷入僵局,不知道下一步怎么做,尋找解決方法,找了很多卻沒有一個(gè)管用,艱難地自己摸索,結(jié)果突然間闖到了下一階段……這一刻,你大叫一聲淚流滿面。
這才是真正的學(xué)習(xí)過程。
“ Learning by doing”,即從實(shí)踐中學(xué)習(xí),是掌握數(shù)據(jù)科學(xué)的唯一方法。你學(xué)騎自行車的時(shí)候,并不是靠研讀《教你怎么騎自行車》,而是直接上去騎,是吧?差不多的道理在這里也適用。不管你學(xué)的是什么,要確保你立刻去用它,用真實(shí)數(shù)據(jù)解決真實(shí)問題。
“如果你花費(fèi)過多時(shí)間思考一件事,你永遠(yuǎn)也無法將它完成。”這是李小龍的一句名言。雷鋒網(wǎng)按:雖然我們不鼓勵(lì)數(shù)據(jù)科學(xué)家讀雞湯,但是——你明白我的意思。