數據科學家的一天是如何分配的?
不言而喻,數據科學家的大部分時間都在和數據打交道。不過,面對面的交流、開會也是一個相當重要的組成部分,這一點可能不太容易想到。
數據科學家Tanu George表示,一天通常以會議開始,這些會議可能有著不盡相同的目的,比如確定客戶的業務問題,跟蹤進展或討論報告。會議結束后,要開始進行數據處理,主要集中解決會議中提到的問題。下午繼續開會,展示數據處理結果,在一天快結束的時候,需要通過電子郵件共享分析結果。
George每天大約50%的時間在開會中度過,20%用于工作,20%用于解釋數據處理結果,包括可視化以及將數據轉化為可操作的形式。Ryan Rosario也是一名數據科學家,同時是線上教育網站Springboard的老師,對他來說,和客戶開會也是一個非常重要的組成部分。很多時候,他都在考慮客戶需要哪種類型的數據。大部分情況下,客戶是沒有數據的也不知道通過哪種途徑得到數據,而他需要根據客戶的需求制定計劃,從而得到數據。
大部分數據科學家并不是與單個數據打交道,而是試圖了解對客戶或公司來說,數據意味著什么。人們很喜歡通過分析數據來做決策,但有時并沒有合適的數據。作為數據科學家,需要學會篩選合適的數據,運用恰當的數據分析方法,幫助客戶做出正確的決策。
工作中最喜歡的部分
George表示,會議是她一天中最喜愛的部分。作為Facebook機器學習的工程師,Rosario認為數據往往是混亂的,或者只有某個特定軟件可以理解。作為數據科學家,需要把數據轉換成方便理解的格式,他很喜歡向人們展示數據可以做什么。許多人都知道他們需要數據,但他們不知道具體需求是什么,而數據科學家需要像魔術師一樣,打開客戶的思維可能性。另一位數據科學家Long喜歡很多部分,包括研究問題背景的初始階段以及找出獲取數據的方法。
如何成為數據科學家?
要想成為數據科學家需要做很多方面的努力,現在幾乎所有公司的數據都會開放API,而Python的數據處理能力強大且方便,如果你想成為數據科學家,可以考慮從Python入手。此外,統計學習、數據處理、統計學和計算機科學可能都會涉及。有人可以通過讀書很好的學習,但最好的學習方法還是將知識付諸實踐。
下一站應該做什么?
隨著物聯網的發展,George認為未來一定會有更多的數據出現。越關注主流數據就意味著有越多的工作要做。Rosario認為,物聯網和流媒體數據將是下一個前沿,數據安全是急需解決的重大問題。數據科學家往往希望成為“獨角獸”,這意味著他們想要盡一己之力,解決所有的編碼、數據操作、數據分析等工作。術業有專攻,很難有人可以掌握所有東西,但不同的人可以掌握不同的技術。
有哪些建議?
想要做數據科學,Rosario認為至少得是碩士學位。對于遇到的問題,應該試圖找到方法并解決它,可以試著從類似于Kaggle的網站尋找數據集,并找出解決方案。
大數據時代,是不是每家公司都需要數據科學家呢?這當然因公司而異,由于目前的軟件技術和算法變得越來越先進,無需人力成本的投入就可以完成數據組織和運營。這些高科技手段對企業而言是利好消息,因為企業可以減少做數據科學方面的成本,但數據科學家的就業前景還是不錯的,數據科學家也應為企業解決難題,為企業帶來價值。