當今計算機世界對數據科學的狂熱追捧并不是沒有緣由的。《哈佛商業評論》將數據科學家列為未來幾年最熱門的職位上之一,加上誘人的薪水,數據科學家已經成為是許多人夢寐以求的新事業。
與現有專業人員技能要求相比,數據科學家的行業標準似乎高得飄渺。但現有的專業人員的在學習數據科學方面并不是一張白紙,那么應該如何提升自己,晉級到數據科學家呢?這里有十個步驟,是你修煉之路上必不可少的錦囊妙計。
1. 掌握數學、統計和ML的技能
數據科學家要比統計學家擅長軟件工程,比任何軟件工程師擅長統計數據。在數據和軟件上保持平衡,避免任何一方過多或不足。
2. 愛上(大)數據
數據科學家經常要處理大量分離或非分離的數據,往往這些工作不能單純的靠單一的機器完成。他們大多要使用Hadoop、MapReduce和Spark等大數據軟件實現分布式處理。
3. 全面了解數據庫
鑒于目前產生數據的速度以秒為單位,大多數行業都在使用諸如MySQL或Cassandra等數據庫管理軟件來存儲和分析數據。因此,對數據庫管理系統有良好理解力,也是成為數據科學家的必備條件之一。
4. 學習代碼
一個數據科學家在沒有學會數據語言之前,不能被稱為完整的數據科學家。一組分類良好的數據可能會得出一個清晰的結論,但如果你懂代碼,就可以更好的理解數據。一個好的程序員可能不是一個好的數據科學家,而一個優秀的數據科學家肯定是一個好的程序員。
5. 數據清除的管理、可視化和報告
數據清除是將數據的原始形式轉換成易于研究、分析和可視化形式的過程。數據可視化同樣也是一項非常重要的技能,數據科學家在做數據分析和數據決策是非常依賴于這些技能。
6. 在項目上實踐
一旦你成為一名優秀的數據科學家,從理論上講,所有的一切工作都有關于實踐。把時間花在建立自己的強項上,盡可能多的參與項目。
7. 對團隊動向有敏銳的洞察力
數據科學家是團隊的一個員,當與一群志同道合的人一起工作時,敏銳的觀察力總能為團隊提供幫助。學會培養發分析數據和做出決策所需要的直覺,密切關注團隊其他同事的工作。
8. 溝通技巧
溝通技巧能將數據科學家與優秀數據科學家區分開來。很多時候,你會發現理解力很重要,尤其是當別人向你模糊的解釋某些重要的數據分析結果時。在處理不可預見的情況時,你的溝通能力也非常重要。
9. 競爭
Kaggle是一個很好的網站,有很多嶄露頭角的計算機科學家在網站上尋找隊友、或是與其他人切磋技能一爭高下。隨著行業中此類網站認可的可信度越來越高,這些比賽也正在迅速成為一個向企業展示你的能力的平臺。
10. 緊跟數據科學家社區步伐
時刻關注KDNuggets、計算機科學101和DataTau這樣的網站,保持與數據科學世界的同步,了解該領域內發生的大事以及目前所提供的職位空缺。
希望上面這十條小建議能幫助你成為優秀的數據科學家。