如今,數據科學家就是王者。但是從數據中提取真正的商業價值則需要技術技能、數學知識、敘述能力和直覺的綜合能力。
對數據科學家的需求仍然很高,幾乎每個行業的公司都希望從其迅速增長的信息資源中獲得最大價值。
“隨著企業開始充分利用其內部數據資產并審查整合的數百個第三方數據源,數據科學家的作用將繼續擴大,”咨詢公司Protiviti董事格雷格·博伊德(Greg Boyd)說。
“過去,負責數據的團隊被委托到IT組織的后臺工作,執行關鍵數據庫任務,以保持各個企業系統得到數據‘燃料’的支持,從而允許公司高管報告運營情況并提交財務業績,”博伊德說。
這個角色很重要,但該業務的新星是那些精明的數據科學家,他們不僅能夠利用復雜的統計學和可視化技術處理大量數據,而且極具智慧,他們可以從這些數據中獲取前瞻性的見解,博伊德說。這些見解有助于預測潛在的結果并減輕對企業的潛在威脅。
那么,成為數據科學專家需要什么素質呢?據IT主管、行業分析師、數據科學家和其他人士稱,以下特征和技能非常重要。
批判性思維
數據科學家需要是一名具有批判性的思考者,以便在提出意見或作出判斷之前,能夠對特定主題或問題進行客觀的事實分析。
“他們需要了解業務問題或做出決策,并能夠對解決問題的關鍵環節進行‘建模’或‘抽象’,而不是考慮那些無關緊要的問題,”咨詢公司普華永道負責數據和分析的全球人工智能和創新主管安納德·拉奧(Anand Rao)說。“這項技能比其他技能都重要,決定著其是否是一名成功的數據科學家。”
數據科學家需要有經驗,但也要有能力暫時放棄一種觀念,Zeta Global公司(該公司提供基于云的營銷平臺)的首席信息官Jeffry Nimeroff補充說。
“這一特征使你在任何領域工作時都能知道即將發生什么,但也知道經驗和直覺是不完美的,”Nimeroff說。“如果我們過于自滿,經驗雖會帶來好處,但并非沒有風險。這就是要懷疑某一信念的重要性。”
Nimeroff說,這不是用新手的眼光來看待事物,而是退后一步,從多個角度評估問題或情況。
編寫代碼
頂尖的數據科學家知道如何編寫代碼,并且能夠輕松處理各種編程工作。
拉奧說:“數據科學所選擇的語言正向Python發展,而R語言也有大量的追隨者。”另外,還有其他一些正在使用的語言,如Scala、Clojure、Java和Octave。
“要成為非常成功的數據科學家,編程技能需要包含兩個方面:計算方面--處理大量數據,處理實時數據,云計算,非結構化數據以及統計特性;和使用統計模型方面,如回歸、優化、聚類、決策樹、隨機森林等,”拉奧說。
安全軟件公司邁克菲(McAfee)的首席數據科學家Celeste Fralick說,從20世紀90年代末開始興起大數據,它的影響要求越來越多的數據科學家要能理解并能使用諸如Python、C ++或Java等語言進行編碼。
如果一個數據科學家不懂如何編寫代碼,那么這就需要懂得編寫代碼的人來幫助它。“將數據科學家與開發人員結合起來,這將是非常有成果的,”Fralick說。
數學能力
對于不喜歡或不擅長數學的人來說,數據科學可能不是一個好的職業選擇。
“在我們與全球各個組織的合作中,我們與希望為其開發復雜財務或運營模式的客戶進行接洽,”博伊德說。“為了使這些模型具有統計相關性,就需要涉及大量的數據。數據科學家的角色就是利用他們在數學方面的深厚專業知識,開發出可用于制定或轉換關鍵業務戰略的統計模型。”
數據科學家是一位擅長數學和統計學的奇才,同時具備與業務主管密切協作的能力,以便以一種可以讓人放心的方式來傳遞在復雜方程的“黑盒子”中實際發生的情況,從而企業可以相信其結果和建議,博伊德說。
機器學習、深度學習和人工智能
Fralick表示,由于計算能力、連接性和收集的大量數據,各個行業在這些領域正在飛速發展。“數據科學家需要在科研工作中保持領先,并了解何時應用何種技術,”她說。“很多時候,當數據科學家正在解決的實際問題遠不那么復雜時,數據科學家會用一些‘吸引人’的新東西。”
數據科學家需要對即將解決的問題有深入的了解,并且數據本身會說明需要什么,Fralick說。“意識到生態系統的計算成本、可解釋性、延遲、帶寬和其他系統邊界條件以及客戶的成熟度,這本身就可以幫助數據科學家理解應使用哪種技術。”她說道。只要他們了解這項技術,情況確實如此。
統計技能也很有價值。Fralick說,大多數雇主都沒有考慮這些技能,因為現在的自動化工具和開源軟件已經很容易獲得。“但是,了解統計學是理解這些工具和軟件所做假設的關鍵能力,”她說。
數據存儲提供商美光科技公司(Micron Technology)的首席信息官特雷弗·舒爾茨(Trevor Schulze)說,僅僅理解機器學習算法的功能接口是不夠的。“為了選擇合適的算法,一位成功的數據科學家需要了解方法內的統計數據和適當的數據準備技術,以最大限度地提高任何模型的整體性能,”他說。
舒爾茨說,計算機科學技能也很重要。因為數據科學主要是在鍵盤上完成的,所以具有很強的軟件工程基礎是很有幫助的。
溝通能力
溝通技巧的重要性值得反復強調。在今天的技術中幾乎沒有什么是在真空中進行的,各個系統、應用程序、數據和人員之間總是存在一些整合。數據科學也不例外,能夠使用數據與多個利益相關者進行交流是一個關鍵技能。
“擁有通過數據來‘講述故事’的能力,可將數學結果轉化為可操作的見解或干預,”拉奧說。“作為業務、技術和數據的交集,數據科學家需要善于向每個利益相關者講述故事。”
這包括向企業高管講述數據的商業利益;講述關于技術和計算資源;講述關于數據質量、隱私和保密性方面的挑戰;以及講述該組織關注的其他領域。
Nimeroff說,作為一名善于溝通的人,需要能夠將具有挑戰性的技術信息提煉成完整、準確且易于表述的形式。“數據科學家必須記住,他們工作所帶來的結果可以并將用于支持企業做出定向型的行動,”他說。“因此,能夠確保聽者理解并欣賞向他們展示的所有內容,包括問題、數據、成功標準和結果,這是至關重要的。”
舒爾茨說,一位優秀的數據科學家必須具備商業頭腦和好奇心,才能充分地與業務利益相關者進行交談,以了解問題并確定哪些數據可能是相關的。
另外,數據科學家需要能夠向業務領導者解釋一些算法。舒爾茨說:“講述算法是如何實現預測功能,這是贏得領導者對作為其業務流程一部分的預測模型的信任的一項關鍵技能。”
數據架構
數據科學家必須了解從開始到建模到業務決策過程,其中數據到底發生了什么。
“不了解架構會對樣本規模的推論和假設產生嚴重影響,往往會導致錯誤的結果和決策,”Fralick說。
更糟的是,在架構內部可能會發生變化。Fralick表示,如果不了解架構內變化對模型的影響,那么數據科學家可能會陷入“重新建模的風暴中,或者突然發現模型不準確而不理解其原因”。
雖然Hadoop通過將代碼傳遞給數據而不是相反,來提供大數據,但了解數據流或數據管道的復雜性對保證基于事實的決策制定至關重要,Fralick表示。
風險分析、過程改進和系統工程
一位優秀的數據科學家需要了解分析業務風險,改進流程以及系統工程如何工作的概念。
“我了解的所有優秀數據科學家都具備這些技能”,Fralick說。“這些技能協調合作,不僅從內在集中于數據科學家本身,而且從外在面向客戶。”
從內在來說,數據科學家應該記住其頭銜的另一部分,即科學家,并應遵循合理的科學理論,Fralick說。
在模型開發開始階段進行風險分析可以降低風險。“表面上看,這些都是數據科學家在了解客戶想要解決什么問題的所有技能,”她說。
Fralick表示,將精力花在研究流程改進,理解公司內在風險以及可能影響數據或模型結果的其他系統,這可以讓客戶對數據科學家的努力更加滿意。
解決問題和良好的商業直覺
Nimeroff說,一般來說,優秀數據科學家所展現的特征與任何其他優秀的問題解決者所具備的特征都是相同的。“他們從多個角度看待世界,他們在拿出工具工作之前,要清楚他們應該做什么,他們工作嚴謹而周全,并且能夠很好地解釋他們工作的結果,”Nimeroff說。
當評價如數據科學家等職位的技術專業人員時,Nimeroff會尋找這些特征。“這種方法的成功率極高,并且也確保了潛在的優勢得以最大化發揮,因為批判性思維已經變得最為重要。”
找到一位優秀的數據科學家需要找到那些具有一些相互矛盾技能的人:有能力處理數據并創建實用的模型;對他們試圖解決的業務問題、數據的結構和細微差別以及模型如何工作有著直觀理解,商業軟件供應商Paytronix Systems負責Paytronix Data Insights業務的主管李·邦尼士(Lee Barnes)說道。
邦尼士說,“其中第一項技能是最容易找到的,大多數擁有良好數學技能并且擁有數學、統計學、工程學或其他科學學科學位的人,都可能具備這樣的智力和技能。“第二項技能很難找到。令人驚訝的是,我們面試的很多人都能建立復雜的模型,但當詢問他們為什么他們認為其模型是有效的或為什么他們選擇采用該方法時,他們無法給出一個合理的答案。”
這些人很可能能夠解釋一個模型的準確性,“但是,他們不理解其模型為什么以及如何工作,因此就很難對他們的模型有很大的信心,”邦尼士說。“那些對他們所做工作有更深入的了解和直覺的人,才是真正的數據科學專家,并且他們才可能在這個領域擁有成功的職業生涯。”
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。