與其他一些相關工程職位一樣,數據科學家的影響力與互聯網同進同退。數據工程師和數據分析師與數據科學家攜手共同完成這幅“大數據時代”巨作。他們共同努力擬定數據平臺要求,基礎和高級算法,提供數據分析和展示所需的可視化工具,并將價值創造以易于理解,富于見解的方式反饋給其他部門。
三者之間的定義又是如何界定的呢?
數據科學家是什么樣一個存在呢?
通常情況下,數據科學家有數學或物理方面的高等學位。有博士學位的情況并不少見,碩士學位僅是一個前提條件。數據科學家精通統計建模以及如何構建與定制高級數學算法。這既在他們專業范圍內,也是他們所擅長的地方。我聽到過有人這樣形容一個數據科學家“軟件工程技能牛過多數人的酷炫統計學家”。但是,當你問這些數據科學家怎么會從事這個職業時,途徑是多種多樣的。這是一個相對較新的職位,因而我們也無法根據時間歷史來追蹤一個數據科學家專業技能是如何進步的。數據科學家和數據工程師的定義有點相互重疊。
除了研究先進算法,數據科學家對AB測試親力親為并且擁有博學的多變量測試和實驗設計知識。一個專業能力非常強的數據科學家能在模型建成后對其進行改進和改制,而能力鶴立雞群的數據科學家則能根據你的商業問題定制合適模型。
我結合加工的說:所謂數據科學家,是指運用統計分析、機器學習、分布式處理等技術,從大量數據中提取出對業務有意義的信息,以易懂的形式傳達給決策者,并創造出新的數據運用服務的人才。
數據工程師如何定義呢?
數據工程師一般被定義成“深刻理解統計學科的明星軟件工程師”。如果你正為一個商業問題煩惱,那么你需要一個數據工程師。這些伙計就是那些能提供可建模數據所需平臺的人。他們的核心價值在于他們借由清晰數據創建數據管道的能力。充分了解文件系統,分布式計算與數據庫是成為一位優秀數據工程師的必要技能。
數據工程師對演算法有相當好的理解。因此,數據工程師理應能運行基本數據模型。商業需求的高端化催生了演算高度復雜化的需求。很多時候,這些需求超過了數據工程師掌握知識范圍,這個時候你就需要打電話尋求數據科學家的幫助。
數據分析師如何理解呢?
數據分析師能洞悉一個方程式的商業意義。他們知道如何提出正確的問題,非常善于數據分析,數據可視化和數據呈現。不管是給另一個數據分析師還是C級執行做演講,數據分析師都是數據提取,模式識別以及從大量數據中洞察問題方面的能手。
如果你或者你的公司正考慮順應這股大數據浪潮的發展,你應該從明確你想利用大數據解決所面臨的商業問題處下手。接著找出你真正的需求:是數據采集,檢索,倉儲還是數據分析?然后編寫相應的職位描述并做好準備,為了在這場大數據游戲中脫穎而出,你可能需要雇傭不止一個人。
從事這三者都要具備哪些技能呢?
數據科學家所需的技能如下:
計算機科學
一般來說,數據科學家大多要求具備編程、計算機科學相關的專業背景。簡單來說,就是對處理大數據所必需的Hadoop、Mahout等大規模并行處理技術與機器學習相關的技能。
數學、統計、數據挖掘等
除了數學、統計方面的素養之外,還需要具備使用SPSS、SAS等主流統計分析軟件的技能。其中,面向統計分析的開源編程語言及其運行環境“R”最近備受矚目。R的強項不僅在于其包含了豐富的統計分析庫,而且具備將結果進行可視化的高品質圖表生成功能,并可以通過簡單的命令來運行。此外,它還具備稱為 CRAN(The Comprehensive R Archive Network)的包擴展機制,通過導入擴展包就可以使用標準狀態下所不支持的函數和數據集。
數據可視化(Visualization)
信息的質量很大程度上依賴于其表達方式。對數字羅列所組成的數據中所包含的意義進行分析,開發Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果可視化,這是對于數據科學家來說十分重要的技能之一。
數據工程師需具備的技能
數學及統計學相關的背景
對于大多數互聯網大公司來說,對于數據工程師的要求都是希望是統計學和數學背景的碩士或博士學歷,只有具備一定的理論知識,才能理解模型、復用模型甚至創新模型,來解決實際問題。
計算機編碼能力
實際開發能力和大規模的數據處理能力是作為大數據工程師的一些必備要素,因為許多數據的價值來自于挖掘的過程,你必須親自動手才能發現金子的價值。
舉例來說,現在人們在社交網絡上所產生的許多記錄都是非結構化的數據,如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數據工程師親自挖掘。即使在某些團隊中,大數據工程師的職責以商業分析為主,但也要熟悉計算機處理大數據的方式。
對特定應用領域或行業的知識
數據工程師這個角色很重要的一點是,不能脫離市場,因為大數據只有和特定領域的應用結合起來才能產生價值。所以,在某個或多個垂直行業的經歷能為應聘者積累對行業的認知,對于之后成為數據工程師有很大幫助,因此這也是應聘這個崗位時較有說服力的加分項。
數據分析具備的技能
懂業務
從事數據分析工作的前提就會需要懂業務,即熟悉行業知識、公司業務及流程,最好有自己獨到的見解,若脫離行業認知和公司業務背景,分析的結果只會是脫了線的風箏,沒有太大的使用價值。
懂管理
一方面是搭建數據分析框架的要求,比如確定分析思路就需要用到營銷、管理等理論知識來指導,如果不熟悉管理理論,就很難搭建數據分析的框架,后續的數據分析也很難進行。另一方面的作用是針對數據分析結論提出有指導意義的分析建議。
懂分析
指掌握數據分析基本原理與一些有效的數據分析方法,并能靈活運用到實踐工作中,以便有效的開展數據分析。基本的分析方法有:對比分析法、分組分析法、交叉分析法、結構分析法、漏斗圖分析法、綜合評價分析法、因素分析法、矩陣關聯分析法等。高級的分析方法有:相關分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對應分析法、時間序列等。
懂工具
指掌握數據分析相關的常用工具。數據分析方法是理論,而數據分析工具就是實現數據分析方法理論的工具,面對越來越龐大的數據,我們不能依靠計算器進行分析,必須依靠強大的數據分析工具幫我們完成數據分析工作。
懂設計
懂設計是指運用圖表有效表達數據分析師的分析觀點,使分析結果一目了然。圖表的設計是門大學問,如圖形的選擇、版式的設計、顏色的搭配等等,都需要掌握一定的設計原則。