新年并非僅僅是更換日歷或是清晨起床后揉開雙眼。新年是充滿喜悅的一個嶄新開始。它給我們一個完美的理由養成一個新習慣,它意味著新“希望”的到來。
如果你正在閱讀這篇文章,我確信數據科學會讓你興奮!你要在2016年做出改變,難道不是嗎?如果你從今天開始致力于實現這些目標,這是完全可能的。你必須明白,成為一個數據科學家需要一個過程,它不是一朝一夕的成功。因此,你必須耐心地朝著目標而努力。
提示:1. 原文中涉及了大量鏈接,值得收藏!在大數據文摘后臺,回復“計劃”,可下載doc文件,獲取文中提供的所有鏈接。
2.這些通用的學習計劃是為有抱負的/有經驗的數據科學家準備的。該文章可能不適合非數據分析領域的人員。
一個數據科學家的新年計劃
我已經將這些學習計劃根據數據科學家的三個水平階段進行了分類。你來決定那個階段最適合你,并進行實踐。當你完成本階段的學習任務后,便可進入下一個階段。針對不同的學習主題,我列出了可獲取的最好的課程。為了達到最佳效果,我建議你逐一學習這些課程。如果你覺得課程學習困難,請與我討論,我會給你提供一個備選方案。方便起見,我分享了可供下載的連接。
初級水平
誰是初學者?如果數據分析和數據科學對你來說是一個全新的領域,你不了解這個行業是如何運作的,但是,你滿懷好奇的在該領域發展你的事業,那么,你就是個初學者。下面就是你的學習目標:
1.從編程語言開始,無論是R或Python。我曾看到有學生同時學習R和Python。最終,他們什么都沒學會。這種學習方法很糟糕。你必須保證自己深入學習R或Python。這是兩個在公司中廣泛應用的開源工具。Python是公認的最簡單的編程語言。R仍是人們最為喜愛的統計工具。選擇權在你。兩者都很好。
學習課程:在Codecademy完成Python的學習。在DataCamp完成R的學習。
2.學習統計學和數學統計學是關于假設和運算的學科。但是,如果你不懂統計和數學,很難在這個行業立足。它是數據科學家的核心競爭力。如果你的數學不好,是時候改變了。習慣使用強大的統計技術、代數和概率學。在可汗學院(Khan Academy)、 Udacity 等平臺上有非常棒的統計學課程。裝上這些APP,便可馬上開始學習。
學習課程:在Udacity上完成 Inferential和Descriptive統計學習。在 Khan Academy完成代數的學習。
3.報名參加一個大型開放式網絡課程(MOOC)大型開放式網絡課程(簡稱MOOC)可以自由訪問和學習。但是,這是你做出的最難實現的承諾。學生們通常一次性報名參加多個課程,但最終一個也完成不了。因此,你必須專注于一個課程,完成之后,在進入下一個課程的學習。你可以在coursera, edX, Udacity上學習任何課程。
學習課程:在Coursera完成數據科學專業(R)的學習。在Dataquest完成數據科學Python的學習。
4.積極參與行業實踐,發現新事物你需要知道這個行業正在發生哪些變化。我們生活在一個充滿活力又瞬息萬變的世界。今天還十分盛行的技術明天可能就過時了。你必須與經驗豐富的專家交流,結識“未來的自己”。現在就開始行動吧,加入討論、參加聚會、關注博客、參加團體活動,并閱讀專業書籍。你可以在Facebook 上跟進這方面的最新消息。
中等水平
誰是中等水平的數據科學家?如果你已經完成了初級水平的學習,并且已經嘗使用機器學習的基礎知識,熟練掌握了建立預測模型的知識,那么你已經到達了數據科學家的中級水平。達到這個水平需要巨大的決心和大量的練習。準備好迎接這個挑戰了嗎?
1. 理解并構建機器學習技能
機器學習是數據科學與技術的未來。所有大公司在雇傭該項技術人才方面投入大量的資金和人力。毫無疑問,當前這種人才的市場需求巨大。對個人而言,也是個不可多得的好機會。今年,你應當在機器學習方面深入拓展。熟練掌握回歸分析(Regression)、聚類分析( Clustering)、 CART 算法。打開下面的連接,你可以找到關于機器學習方面的免費學習資源:
學習課程:在Andrew Ng完成機器學習的課程。
2. 專注于Ensemble和Boosting 算法的學習
一旦你對機器學習充滿自信,那么轉攻下一個模型吧。使用boosting和ensemble算法,可以使得模型的精度遠遠高于其他算法。上面分享的免費學習資源已經涵蓋了這個主題。但是,要讓自己更深入的理解這個主題。
學習課程:閱讀 Kaggle的Ensembling 指南(Guide)。在MIT Lecture完成Boosting的學習。
3. 探索使用Spark, NoSQL以及其他大數據處理工具
本年,你將開啟自己的大數據之旅。鑒于大數據人才需求的蓬勃發展,你必須學會Spark軟件。最近它非常流行。大數據的未來依賴于Spark,它被廣泛應用于大數據的操作和處理。通過學習Spark,你還可以拓展自己的專業知識到NoSQL , Hadoop上。
學習課程:首先學習Spark.
4. 教育社區同伴
還有什么比知識分享更棒!從今年開始,同那些努力學習數據科學的人分享你的知識。你可以加入活躍的數據科學論壇(forums),幫他們解疑答惑,教會他們有用的技巧和竅門。你也可以舉辦類似的聚會。
行動指南:追隨我們Facebook。
5. 參加數據科學競賽
是時候檢驗你的學習效果了。今年你必須參一些競賽,它能幫你認清自己的長處和短板。此外,你會對已掌握的知識更加自信。我希望你能榮登Kaggle Top500排名榜。從現在開始,你的目標是成為the Last Man Standing(點擊打開連接,這是一個數據科學領域的競賽)。
行動指南:加入Kaggle 和 Data Hack。
提示:比賽可能有點兒難。你可以通過查看這些實際問題來檢查自己的技能和知識。他們一點兒不難,但非常有趣!
高級水平
我無需定義這類人群。大部分人都非常害怕去嘗試數據科學,但他們卻十分精通。他們已經過上了輕松愜意的生活,但是,他們熱愛挑戰。他們是經驗豐富的專家。下面是一些學習計劃:
1.構建一個深度學習模型(deep learning model)
今年,你要為立志于成為數據科學家的人樹立榜樣。你必須創建深度學習(deeplearning)的模型。在世界各地,已經有人使用這些模型進行預測了。這是機器學習的高級階段。其準確性已明顯優于一般的機器學習模型。
學習課程:完成Tutorial 的深度學習。
2. 回饋社群
我相信知識是用于分享而不是用于存儲的。分享得越多,學到的越多。換種方法解釋,“你學到一個新概念,然后解釋給你的兩個朋友聽,你對這個概念的記憶可能會更久。“今年,你制定一個計劃,利用你的知識和經驗幫助數據分析社區的成員。這會幫助那些在數據分析領域苦苦掙扎的人們找到勝利的彼岸。
行動計劃:在Discuss 上分享你的知識。
3.探索強化學習(Reinforcement Learning)
強化學習是(Reinforcement Learning)機器學習中最強大的,然而少有人開發的一個分支。今年,在這一領域做些研究。雖然很有挑戰性,但值得一試。無人駕駛、間諜無人機就是強化學習的成果。一旦你開始涉足該領域,你就自動進入人工智能領域。
學習課程:完成Andrew Moore的tutorial。
4. 進入Kaggle前50名
今年,你必須保持住在Kaggle上的“大師”地位,準確的講,確保自己在Kaggle排名進入前50。參加適合自己領域的相關競賽,與其他kagglers組隊。參與這個水平的競賽,你會學習到一些在其他地方學不到的理念。
行動計劃:加入Kaggle
追蹤你的進程。2016年新年學習計劃表 Download
結束語
我理解,這些學習計劃對你具有挑戰性,但值的一試。根據你當前的情況,自由選擇適合自己的學習計劃。我只是羅列了有抱負的數據科學家必須要知道的重要知識和技能。
在上周我意識到,人們并沒有足夠的勇氣制定新年計劃。這個問題也曾困擾著我。因此,我決定寫下這篇文章。我希望,在2016年結束之前,你會完成初級水平的學習(假設你是一個新手)。
這篇文章已經為你制定新年計劃掃除了障礙。作為一個有野心的數據科學家,我已經為你提供了“硬骨頭”,就等著你去啃下它了。在學習的過程中如果遇到任何困難,請在下面的評論分享你的想法。