所謂數(shù)據(jù)科學(xué)家就是比軟件工程師更擅長統(tǒng)計學(xué),比統(tǒng)計學(xué)家更擅長軟件工程的人。
--Josh Wills, Cloudera云紀(jì)元
毫無疑問,數(shù)據(jù)科學(xué)是如今職場上最受追捧的技能之一。CNBC的一篇文章在綜合考慮就業(yè)機會、薪水中位數(shù)、體力工作強度、工作壓力等因素后,將“數(shù)據(jù)科學(xué)家”評選為2017年最受歡迎的10大職業(yè)之一。數(shù)據(jù)科學(xué)在職場中確實越來越熱,數(shù)據(jù)科學(xué)家年薪的中位數(shù)超過了11萬美元而且職場中對于數(shù)據(jù)科學(xué)家的需求有16%的預(yù)期增長。
話雖如此,想要成為一名數(shù)據(jù)科學(xué)家卻并不簡單。這份工作在要求全面扎實的技術(shù)能力的同時,還要求豐富的想象力。數(shù)據(jù)科學(xué)家必須有能力收集恰當(dāng)?shù)臄?shù)據(jù)、將之整理為合適分析的形式、設(shè)計創(chuàng)造性地方法來實現(xiàn)數(shù)據(jù)可視化、并挖掘數(shù)據(jù)信息來回答具體問題。
正因如此,頂級數(shù)據(jù)科學(xué)家在技術(shù)型公司通常會得到搖滾巨星般的待遇。然而,數(shù)據(jù)“極客”的生活跟“輕松”兩個字卻毫不沾邊。新工具和新技術(shù)每天都如同雨后春筍般不斷涌現(xiàn),數(shù)據(jù)科學(xué)家必須不斷更新知識和技能,才能保住自己在公司的地位。
那么,就讓我們來看看數(shù)據(jù)科學(xué)家有哪些日常。
1、當(dāng)被別人問:“什么是大數(shù)據(jù)?”
“啥,你逗我?”⊙o⊙
我們生活在高度數(shù)字化的世界,大數(shù)據(jù)無處不在。通過社交媒體、網(wǎng)銀、GPS、電子商務(wù),我們無時不刻都在生成海量的數(shù)據(jù)。事實上,據(jù)報道,我們每天生成的數(shù)據(jù)量高達2.5兆字節(jié)。
大數(shù)據(jù)已經(jīng)改變了我們與人溝通的方式和生活方式。借助大數(shù)據(jù)分析,零售網(wǎng)站得以針對用戶喜好發(fā)送精準(zhǔn)的產(chǎn)品推薦,政府機關(guān)得以掌握并預(yù)測犯罪行為,交管部門得以管控交通流量,執(zhí)業(yè)醫(yī)師得以更精確地診斷疾病。
大數(shù)據(jù)的應(yīng)用簡直不勝枚舉,而且切實而有效地提高了我們的生活質(zhì)量,因此每個人都應(yīng)該很熟悉“大數(shù)據(jù)”這個詞了。
2、你第一次跑通R代碼是什么時候?
有一天,新手?jǐn)?shù)據(jù)科學(xué)家會懂上邊這張圖。R編程是數(shù)據(jù)科學(xué)領(lǐng)域最必不可少的技能之一。KDnuggets上就有文章認(rèn)為, R是2016年分析和數(shù)據(jù)科學(xué)領(lǐng)域最受歡迎的軟件,而Python僅排名第二。
考慮到R在市面上的受歡迎程度,當(dāng)R代碼如你所愿發(fā)揮作用時,你會情不自禁地認(rèn)為自己就是數(shù)據(jù)之王。
3、當(dāng)你不得不處理非結(jié)構(gòu)化流數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)分析通常被稱為“暗黑分析”(dark analytics)。這個令人生畏的名號絕非虛張聲勢,而是貨真價實、毫不夸張。
即使是最嫻熟的數(shù)據(jù)科學(xué)家,處理起非結(jié)構(gòu)化流數(shù)據(jù)來也免不了一個腦袋兩個大。不論是社交媒體、視頻、客戶日志還是地理空間服務(wù)數(shù)據(jù),分析工作都需要在多元數(shù)據(jù)上實時、增量進行。此外,時效性也是此類數(shù)據(jù)分析工作的重中之重。
因此,當(dāng)你一腳踏入暗黑分析的領(lǐng)域,那種(面對龐然大物茫然不知所措的)感覺就跟試圖揭開宇宙奧秘的空間科學(xué)家毫無二致。
4、當(dāng)你模型的預(yù)測準(zhǔn)確度高于90
這可不是小事。為了做好分析工作,數(shù)據(jù)科學(xué)家必須在數(shù)據(jù)研究、解讀、準(zhǔn)備和處理上投入大量的時間,這個過程需要極大的耐心和努力。然而,如果你構(gòu)建的模型的準(zhǔn)確預(yù)測度可以達到90%以上,回報也是無比豐厚的。
當(dāng)客戶、經(jīng)理、同事的贊揚和欣賞如潮水般向你涌來時,你在喜不自勝之余腦海里只會記得一件事 — 周末嗨翻天!
5、當(dāng)你想要找出模型中的漏洞
從成百上千行代碼中找到錯誤,就跟讓宿醉的你去大海里撈針一樣痛苦。
但是直面現(xiàn)實吧,這就是工作呀,誰讓你是數(shù)據(jù)科學(xué)家呢。
6、當(dāng)你的經(jīng)理問及漏洞修復(fù)進展
通常情況下,數(shù)據(jù)科學(xué)機構(gòu)中的經(jīng)理們都不了解技術(shù)性任務(wù)的實質(zhì),不論是排查模型缺陷或者改善模型性能;他們普遍更加關(guān)注項目管理(例如最后時限等。)
面對“這個項目什么時候能結(jié)束?”這樣的問題,數(shù)據(jù)科學(xué)家能做的就是能拖一會兒就拖一會兒或者干脆消失。
7、當(dāng)你的小白朋友指出了你模型的漏洞
你死死盯著代碼,幾個小時過去了卻一無所獲。就在你幾乎要放棄的時候,一個朋友偶然掃了一眼,馬上就指出了其中的錯誤。
最初的尷尬和怒火過去之后,你很快就會松一口氣,畢竟麻煩事兒又少了一件。
沒什么大不了的,我們可以這樣安慰自己:“旁觀者清嘛”。
8、當(dāng)你的SQL查詢跑的特別慢
慢吞吞的服務(wù)器,糟糕的網(wǎng)絡(luò)情況,或者別的什么原因,都會導(dǎo)致SQL查詢執(zhí)行的特別慢,就跟看著油漆一點點風(fēng)干一樣;當(dāng)然你也不用一直盯著電腦屏幕,倒杯咖啡,讓SQL自己飛一會吧。
這很無聊,而且極耗耐心;不過大家都是這樣過來的。
9、 當(dāng)你好不容易建好模,用戶又要改數(shù)據(jù)
在費盡九牛二虎之力分析數(shù)據(jù)、建了無數(shù)模型,分析出了無數(shù)趨勢后,你最不想聽到的就是你用的是“錯誤”數(shù)據(jù)。
也就是說,你要分析一套完全不同的數(shù)據(jù)集,所有的模型都要進行重大調(diào)整,從頭再來一遍。痛苦啊!
10、當(dāng)你再有20分鐘就要見客戶,但PPT還沒做好
你剛做完見客戶的PPT,擦擦皮鞋整整領(lǐng)帶就可以去見客戶了吧?就大多數(shù)情況而言,答案是否定的。
數(shù)據(jù)工程師需要跟同事和經(jīng)理復(fù)核PPT;這意味著在最后一分鐘內(nèi)PPT會有無數(shù)改動。做這些改動是非常有壓力的,因為這關(guān)系到你的個人聲譽、業(yè)務(wù)成敗、公司形象、甚至你的職業(yè)前途。
不過,當(dāng)你最終得到客戶首肯時,你會意識到有些改變是非常關(guān)鍵的,而且能讓你的案例更有說服力。
正如大名鼎鼎的史蒂芬·喬布斯說的:
“偉大的商業(yè)成就絕非一人可為,而是團隊之功。”
11、客戶最終認(rèn)同你的模型的輸出結(jié)果
這是所有數(shù)據(jù)科學(xué)家都天天幻想的時刻。
面對要求極高、條件極為嚴(yán)苛的客戶,你夜以繼日的努力工作,力求模型達到最大限度的精確有效。你不得不一次又一次給自己打氣,拿出最大的耐心來面對這幫鬧心的客戶。然而,當(dāng)客戶真心實意地向你豎起大拇指時,最終的勝利是屬于你的。
Kirk Borne博士對此有著精辟見解:
“客戶可能會出錯,但客戶永遠(yuǎn)是客戶。”
12、當(dāng)市場迎來一家新的大數(shù)據(jù)公司
分析行業(yè)發(fā)展十分迅猛,新工具和新技術(shù)也層出不窮。數(shù)據(jù)科學(xué)家見證著各種大數(shù)據(jù)、分析和深度學(xué)習(xí)工具的不斷涌現(xiàn)。
數(shù)據(jù)極客骨子里都是持續(xù)學(xué)習(xí)者,他們對于業(yè)內(nèi)新發(fā)展永遠(yuǎn)持開放態(tài)度,并且會隨之拓展自己的知識和技能。