編者按:求職者有時會問 IBM 如何定義“數據科學家”這一職位。這是一個重要的問題,因為市場需要越來越多的數據科學家,IBM 分析師Seth Dobrin 在本文中詳細定義了 IBM 眼中的數據科學家。
第一步是區分真正的數據科學家和從事相關工作的其他專業人員(例如數據工程師,業務分析師和 A I應用開發人員)。為了做這個區分,我們首先定義數據科學的含義。
數據科學的核心是運用科學的方法來解決商業問題。
你可以進一步擴展定義,使用人工智能來解決這些業務問題,進行預測,并優化流程。
根據定義,要實現數據科學的真正潛力,我們需要具有非常特殊的經驗和技能的數據科學家,具體來說,我們需要具備運行和完成數據科學項目所需經驗和技能的人員:
1、接受過科學訓練,有相關學位
2、具備機器學習和統計方面的專業知識,重點在于決策優化
3、擁有 R,Python 或 Scala 的專業知識
4、能夠轉換和管理大型數據集
5、有能力將上述技能應用于現實世界的商業問題
6、能夠評估模型的性能并進行相應地調整
1、接受科學訓練,有相關學位
這不是關于學位本身,而是關于你在獲得高等學位時學到的東西。 簡而言之,學習科學的方法,能夠從復雜而抽象的問題開始,將其分解成一系列可驗證的假設,你設計實驗來測試你的假設,以及你如何分析結果以確定假設是否被證實或證偽。你也可以在學術界之外學習這些技能,甚至通過在線培訓,所以學位這一點具有一定的靈活性,但應用科學方法的直接經驗是必須的。
擁有高等學位的另一個優點是同行評審過程和發表論文要求的嚴格性。為了獲得發表,候選人必須以允許其他人審閱和作品。還必須提供證據表明結果是有效的,方法是正確的。 這樣做需要深刻理解概率和確定性因素之間的差異以及相關性的價值。
2、機器學習和統計方面的專業知識,重點在于決策優化
將科學方法應用于商業問題,可以讓我們預測未來會發生什么,從而做出更好的決策。這種預測是人工智能的產物,更具體地說是機器學習。 對于一個真正的數據科學家來說,機器學習和統計的核心技術技能必須的。
3、R,Python 或 Scala 的專業知識
作為一名數據科學家,并不要求你像專業開發人員一樣精通編程,但是創建和運行支持數據科學過程的代碼的能力是必須的,包括能夠統一使用統計和機器學習中流行的數據科學語言。
4、能夠轉換和管理大型數據集
第四種技能也就是大數據能力。使用 Apache Spark 等分布式數據處理框架的能力是關鍵。 真正的數據科學家知道如何在數據科學團隊的幫助下,從多個來源和多種數據類型中提取數據集。數據本身可能是存在于多個云中的結構化、半結構化和非結構化數據的組合。
5、有能力將上述技能應用于現實世界的商業問題
第五種技能是一種軟技能。 這是與非數據科學家進行交流的能力,以確保數據科學團隊獲得所需的數據資源,并將數據科學應用于正確的業務問題。 掌握這一技能還意味著確保數據科學項目的結果,例如關于業務可能發展的預測得到商業人士的充分理解和操作。這需要良好的講故事技巧,尤其是將數學概念映射到常識的能力。
6、能夠評估模型的性能并進行相應地調整
對于一些人來說,第六個技能是第二個技能的一個方面:機器學習的專長。 我想要分開描述,因為這一點經常是一個好的數據科學家和壞的數據科學家的區別。 缺乏這種技能的數據科學家經常輕易相信已經創建并部署了有效的模型,而事實上他們的模型與訓練數據并不匹配。
做一個真正的數據科學家
如果你想成為一個真正的數據科學家,而不是一個沒有有抱負的數據科學家或只個數據科學家頭銜,我鼓勵你掌握全部這六個能力。 數據科學家與業務分析師或數據分析師從根本上不同,業務分析師或數據分析師經常擔任數據科學團隊的產品所有者,擔任向數據科學家提供專業知識的重要角色。
這并不是說業務分析師、數據分析師和其他人不能轉型為真正的數據科學家,但要明白,這需要時間,堅持,指導,并一次又一次地將自己應用于真實的困難問題。
原文鏈接:https://venturebeat.com/2017/11/30/what-ibm-looks-for-in-a-data-scientist/
編譯組出品。編輯:郝鵬程
編者按:求職者有時會問 IBM 如何定義“數據科學家”這一職位。這是一個重要的問題,因為市場需要越來越多的數據科學家,IBM 分析師Seth Dobrin 在本文中詳細定義了 IBM 眼中的數據科學家。
第一步是區分真正的數據科學家和從事相關工作的其他專業人員(例如數據工程師,業務分析師和 A I應用開發人員)。為了做這個區分,我們首先定義數據科學的含義。
數據科學的核心是運用科學的方法來解決商業問題。
你可以進一步擴展定義,使用人工智能來解決這些業務問題,進行預測,并優化流程。
根據定義,要實現數據科學的真正潛力,我們需要具有非常特殊的經驗和技能的數據科學家,具體來說,我們需要具備運行和完成數據科學項目所需經驗和技能的人員:
1、接受過科學訓練,有相關學位
2、具備機器學習和統計方面的專業知識,重點在于決策優化
3、擁有 R,Python 或 Scala 的專業知識
4、能夠轉換和管理大型數據集
5、有能力將上述技能應用于現實世界的商業問題
6、能夠評估模型的性能并進行相應地調整
1、接受科學訓練,有相關學位
這不是關于學位本身,而是關于你在獲得高等學位時學到的東西。 簡而言之,學習科學的方法,能夠從復雜而抽象的問題開始,將其分解成一系列可驗證的假設,你設計實驗來測試你的假設,以及你如何分析結果以確定假設是否被證實或證偽。你也可以在學術界之外學習這些技能,甚至通過在線培訓,所以學位這一點具有一定的靈活性,但應用科學方法的直接經驗是必須的。
擁有高等學位的另一個優點是同行評審過程和發表論文要求的嚴格性。為了獲得發表,候選人必須以允許其他人審閱和作品。還必須提供證據表明結果是有效的,方法是正確的。 這樣做需要深刻理解概率和確定性因素之間的差異以及相關性的價值。
2、機器學習和統計方面的專業知識,重點在于決策優化
將科學方法應用于商業問題,可以讓我們預測未來會發生什么,從而做出更好的決策。這種預測是人工智能的產物,更具體地說是機器學習。 對于一個真正的數據科學家來說,機器學習和統計的核心技術技能必須的。
3、R,Python 或 Scala 的專業知識
作為一名數據科學家,并不要求你像專業開發人員一樣精通編程,但是創建和運行支持數據科學過程的代碼的能力是必須的,包括能夠統一使用統計和機器學習中流行的數據科學語言。
4、能夠轉換和管理大型數據集
第四種技能也就是大數據能力。使用 Apache Spark 等分布式數據處理框架的能力是關鍵。 真正的數據科學家知道如何在數據科學團隊的幫助下,從多個來源和多種數據類型中提取數據集。數據本身可能是存在于多個云中的結構化、半結構化和非結構化數據的組合。
5、有能力將上述技能應用于現實世界的商業問題
第五種技能是一種軟技能。 這是與非數據科學家進行交流的能力,以確保數據科學團隊獲得所需的數據資源,并將數據科學應用于正確的業務問題。 掌握這一技能還意味著確保數據科學項目的結果,例如關于業務可能發展的預測得到商業人士的充分理解和操作。這需要良好的講故事技巧,尤其是將數學概念映射到常識的能力。
6、能夠評估模型的性能并進行相應地調整
對于一些人來說,第六個技能是第二個技能的一個方面:機器學習的專長。 我想要分開描述,因為這一點經常是一個好的數據科學家和壞的數據科學家的區別。 缺乏這種技能的數據科學家經常輕易相信已經創建并部署了有效的模型,而事實上他們的模型與訓練數據并不匹配。
做一個真正的數據科學家
如果你想成為一個真正的數據科學家,而不是一個沒有有抱負的數據科學家或只個數據科學家頭銜,我鼓勵你掌握全部這六個能力。 數據科學家與業務分析師或數據分析師從根本上不同,業務分析師或數據分析師經常擔任數據科學團隊的產品所有者,擔任向數據科學家提供專業知識的重要角色。
這并不是說業務分析師、數據分析師和其他人不能轉型為真正的數據科學家,但要明白,這需要時間,堅持,指導,并一次又一次地將自己應用于真實的困難問題。
原文鏈接:https://venturebeat.com/2017/11/30/what-ibm-looks-for-in-a-data-scientist/
編譯組出品。編輯:郝鵬程