數據科學是一種將業務數據轉換為資產的方法,可幫助組織提高收入、降低成本、抓住商機、改善客戶體驗等。
數據科學定義
數據科學是一種使用從統計分析到機器學習的方法從結構化和非結構化數據中收集洞察力的方法。對于大多數組織而言,數據科學被用于將數據轉化為價值,其形式是改善收入,降低成本,提高業務靈活性,改善客戶體驗,開發新產品等。
RiskIQ公司首席數據科學家Adam Hunt說,“如果愿意,企業可以獲取的數據量是巨大的,但是如果沒有做任何事情,把它變成有趣的東西,它有什么用呢?數據科學是關于提供這些數據的目的。”
數據科學與分析
雖然數據分析是緊密相關的,但它是數據科學的一個組成部分,用于了解組織的數據是什么樣子的。數據科學利用分析的輸出來解決問題。
Hunt說,“數據科學正在得出推動數據向前發展的結論。如果不是采用數據解決問題,如果只是在做調查,那就是分析。如果真的要用結果來解釋某些事情,就要從分析到科學。數據科學與實際解決問題的關系比觀察、檢查、繪制數據更大。”
對于Looker公司首席數據科學家Hillary Green-Lerman來說,數據分析和數據科學之間的區別在于時間尺度。她表示,數據分析描述了當前的現實狀況。數據科學使用該數據來預測或了解未來。
Green-Lerman說,“許多人認為數據分析師只是初級數據科學家;有人希望在他們長大后成為數據科學家。有時這是真的,但實際上我發現一個非常優秀的分析師擁有與數據科學家不同的技能。”
數據科學與大數據
數據科學和大數據通常是一致的,但數據科學可以用來從各種規模的數據中提取價值,無論是結構化的、非結構化的還是半結構化的。當然,在許多情況下,大數據對數據科學家很有用,因為企業擁有的數據越多,在給定模型中可以包含的參數就越多。
Hunt說,“有了大數據,企業就不必受制于小數據的維數限制。大數據在某些方面確實有幫助,但更多并不總是更好。如果把股票市場放在合適的位置,它就不會起作用。”
數據科學的商業價值
數據科學的商業價值取決于組織需求。數據科學可以幫助組織構建工具來預測硬件故障,允許組織執行維護,并防止意外停機。它可以幫助預測超市貨架上的內容,或者根據產品的屬性預測產品的流行程度。
MapR科技公司首席應用架構師Ted Dunning說,“數據科學團隊可以擁有的最大價值在于他們與業務團隊融為一體。幾乎按照定義,尋求新奇的人員,真正創新的人員,將會發現價值或泄漏的價值,而不是人們所預期的。通常他們會讓業務人員帶來驚喜。價值并不是人們最初認為的那樣。”
數據科學團隊
數據科學通常是一門團隊科學。數據科學家是大多數數據科學團隊的前瞻性核心,但從數據轉向分析,然后將分析轉化為生產價值需要一系列技能和角色。例如,數據分析師應該在將數據呈現給團隊,并在維護數據模型之前對其進行調查。數據工程師必須構建數據管道以豐富數據集,并使數據可供公司其他人使用。
eBates公司分析副總裁Mark Stange-Tregear警告不要尋求數據科學“獨角獸”,也就是將非線性思維與高級數學和統計知識以及編碼能力相結合的人員。
Stange-Tregear解釋說,“我不認為數據工程是關鍵的數據科學家特征,我希望有人真正添加其他內容。如果我可以讓某人建立模型,能夠評估統計數據,并將該模型的好處傳達給業務部門,那么我就可以雇傭足夠成熟的數據工程師來采用該模型并實現它。”
數據科學的嵌入式方法
一些組織選擇將數據科學家與其他功能混合在一起。例如,Mapr公司的Dunning建議遵循數據操作方法,將數據科學家嵌入到具有業務線職責的DevOps團隊中。這些數據運營團隊往往是跨職能的和技能的,如運營、軟件工程、架構和產品管理,并且可以從頭到尾協調數據、工具、代碼和環境。數據運營團隊傾向于將分析管道視為類似于生產線。
Dunning說,“孤立的數據科學團隊可能希望部署最復雜的模型,嵌入式數據科學家將尋找可維護的廉價勝利。他們對于選擇的解決方案是務實的。”
數據科學目標和可交付成果
數據科學的目標是構建從數據中提取以業務為中心的見解的方法。這需要理解價值和信息在企業中是如何流動的,并能夠利用這種理解來識別業務機會。雖然這可能涉及一次性項目,但更典型的是,數據科學團隊尋求識別關鍵數據資產,這些資產可以轉化為數據管道,為可維護工具和解決方案提供支持。例如,銀行使用的信用卡欺詐監控解決方案,或用于優化風電場中風力發電機布置的工具。
逐漸地,傳達團隊所做工作的演示文稿也是重要的可交付成果。Riskq公司的Hunt說,“確保他們將結果傳達給公司的其他人是非常重要的,當數據科學團隊長時間陷入困境時,它開始陷入困境。產品經理認為工作是理所當然的,除非我們一直在談論和關注它。”
數據科學過程和方法
生產工程團隊在Sprint周期中工作,并且有計劃的時間表。Hunt表示,數據科學團隊通常很難做到這一點,因為可以提前花很多時間來確定一個項目是否可行。
Hunt說,“很多時候,第一周甚至第一個月都是研究、收集、清理數據。我們能回答這個問題嗎?我們能有效地做到嗎?我們花費了大量的時間進行設計和調查,遠遠超過了標準工程團隊的表現。”
對于Hunt來說,數據科學應該遵循科學方法,盡管他指出并非總是如此,甚至不可行。
Hunt說,“企業試圖從數據中提取一些洞察力。為了反復和自信地做到這一點,必須使用科學方法準確地證明其假設。但我不認為許多數據科學家真正使用任何科學。”
Hunt說,真正的科學需要時間。企業花費時間確認其假設,然后花費很多時間試圖反駁自己。
Hunt說,“通過數據科學,企業需要深入研究數據來驗證這些假設。我們試圖回答的很多問題都是短暫的。例如,在安全方面試圖找到解決威脅的辦法。”
他表示,因此,數據科學通常意味著采用“足夠好”的答案,而不是最佳答案。然而,危險是結果可能成為確認偏見或過度擬合的犧牲品。
他說,“如果這不是真正的科學,也就是說企業用科學的方法來證實一個假設,那么所做的就是向一些算法采用數據來證實自己的假設。”
數據科學工具
數據科學團隊使用各種工具,包括SQL、Python、R、Java以及Hive、oozie和TensorFlow等開源項目。這些工具用于各種與數據相關的任務,從提取和清理數據到通過統計方法或機器學習對數據進行算法分析。
通過統計方法或機器學習進行算法分析。
“企業需要良好的可視化工具。在這一點上,編程工具Python是最受歡迎的。企業需要能夠構建有趣模型的工具。”MapR公司Dunning說。
Dunning說,當MapR公司調查其客戶數據團隊時,團隊使用的最少數量的建模工具是5個,而且甚至沒有進入可視化工具。
“事情變得越來越多,因為人們更加懷疑。這種其他建模技術會產生更好的模型嗎?”Dunning說。
數據科學家的薪酬
根據PayScale公司的數據,以下是一些與數據科學相關的最受歡迎的職位和每個職位的平均薪酬:
•分析經理:67,000美元至126,000美元
•助理數據科學家:58,000美元至101,000美元
•商業智能分析師:49,000美元至95,000美元
•數據分析師:42,000美元至83,000美元
•數據架構師:77,000美元至153,000美元
•數據工程師:64,000美元至132,000美元
•數據科學家:65,000美元至134,000美元
•IT數據科學家:61,000美元至135,000美元
•首席數據科學家:95,000美元至172,000美元
•研究分析師:4萬至7萬美元
•研究科學家:48,000美元至118,000美元
•高級數據科學家:93,000美元至160,000美元
•統計學家:50,000美元至108,000美元
數據科學技能
雖然數據科學學位課程的數量正在迅速增加,但它們并不一定是組織在尋找數據科學家時所尋求的。eBates公司Stange-Tregear表示,他尋找具有統計背景的候選人,因此他們知道是否在看實際結果,將結果置于場景中的領域知識;以及使他們能夠向業務用戶傳達結果的溝通技巧。
“如果我有一位可以完成所有這些工作的數據科學家,那么我會擔心通過數據工程團隊實現這一點。”他說。
RiskIQ公司的Hunt表示,對擁有博士學位的應聘者很感興趣。Hunt說,“我偏向招聘于擁有博士學位的人,但我不會放棄那些具有豐富經驗的人才。博士能夠對一個主題進行非常深入的研究,并且能夠將這些信息傳播給其他人。但是,擁有扎實的背景或個人項目是非常有趣的。”
Hunt說,他特別尋找物理、數學、計算機科學、經濟學甚至社會科學的博士學位的人才。他不會對擁有數據科學或分析學位的應聘者另眼相看,但他確實對招聘這些人有所保留。他說,“我的個人經歷是,我發現它們非常有用,但他們過于關注模型的操作,而不是思維方式。”
MapR公司的Dunning更關心申請人的個人能力,而不是展示新事物的能力。他說,“我在招聘數據科學家時首先想到的內容是:受訪者是否能教會我一些東西?我不想找到指導我怎么做的人,我非常想找到那些可以做我不能做的事情的人才,或者可以教會團隊的人才。”
Dunning指出,一些優秀的數據科學家或數據科學領域的領導者都具有非傳統背景,并指出,他與之合作過的最好的人員包括曾經做了6年園丁的人,具有美術背景的人,有的甚至擁有法國文學學位,還有一位沒有接受計算機培訓的新聞系學生。
Dunning說:“想用數據感知來測試人們,而不是用公式。希望有能力看到事物并理解它們。”
數據科學培訓
鑒于目前缺乏數據科學人才,許多組織正在制定計劃,以培養內部數據科學人才。而培訓是另一條快速增長的途徑,培訓工作人員承擔數據科學家的角色。
數據科學學位
根據美國新聞和世界報道,這些是數據科學領域的頂級研究生學位課程:
•統計學理學碩士:斯坦福大學的數據科學
•信息與數據科學碩士:伯克利信息學院
•數據科學理學碩士:哈佛大學約翰保爾森工程與應用科學學院
•分析科學碩士:芝加哥大學格雷厄姆學院
•計算數據科學碩士:卡內基梅隆大學
•數據科學理學碩士:華盛頓大學
•跨學科數據科學碩士:杜克大學
•應用數據科學碩士:密歇根大學信息學院
數據科學認證
組織需要在數據分析技術方面有專長的數據科學家和分析師。他們還需要大數據架構師將需求轉化為系統,需要數據工程師構建和維護數據管道,需要了解Hadoop集群和其他技術的開發人員,還需要系統管理員和管理人員將一切聯系在一起。認證是候選人展示他們擁有正確技能的一種方式。
一些頂級大數據和數據分析認證包括:
•數據科學專業成就認證
•認證分析專業人員
•Cloudera認證助理(CCA)數據分析師
•EMC經驗證的專業數據科學家協會(EMCDSA)
•MapR認證數據分析師
•Microsoft認證解決方案專家(MCSE):數據管理和分析
•使用SAS 9的SAS認證數據科學家