隨著大數據的應用與發展,各行業對具有數據科學技能的開發人員的需求持續增長。而希望成為數據科學家的技術人員需要學習如何融入這個領域的職業生涯。
尋求擴大在技術領域的技能?據技術招聘網站Indeed Prime主管Shu Wu介紹,目前對擁有數據科學技能的開發人員的需求目前“非常強勁”,過去四年來,數據科學家的職位需求“大幅增長”。
Shu Wu說:“數據科學家就業前景看好,平均薪酬很高,但成為數據科學家是很艱難的。數據科學家是一個研究數據的偉大的專家,能夠使整個組織的數據得到消化和解析。”
美國塔夫斯大學IEEE研究員兼研究生院院長Karen Panetta說,技術進步和大量的在線數據正在影響著每一個部門,對經濟產生了巨大的影響。這種所謂的“數據雪崩”不僅僅是數據量的龐大,而且還包括其變化和發展的速度,以及可用的各種數據類型。
Panetta表示:“知道如何使用電子表格和傳統數據庫不足以應對新興大數據革命。數據分析需要實時完成,這對決策可能至關重要,能夠簡單地知道如何使用軟件工具只是這個挑戰的一部分,了解跨學科的數據,能夠傳達其意義,并使用統計數字將是與傳統‘數字糾正器’不同的因素。”
Forrester公司的分析師Mike Facemire表示:“在學習使用數據的編程語言方面,所有語言的標準是找到一些東西,并做到這一點。”“編寫代碼是一個偉大的事情,而做錯是一個很好的學習經歷。”Facemire建議開發人員去開源社區Github查看示例,并找到一個感興趣的數據集并學習分析它。
最終,了解如何通過將其分解成較小的部分來了解如何解決問題,而不是了解該語言本身,Facemire說。他說:“最后,這只是一種與電腦接口的方法。計算機不在乎你使用哪種語言,它更關心是否正確地解決了問題,以獲得正確的結果。”
Panetta表示,一些教育機構已經創建了數據科學學位課程,包括美國的東北大學,波士頓大學,紐約市立大學和莫瑞麥克學院。其中一些學校提供在線課程,通過IEEE計算機學會提供低成本課程和研討會。
如果技術人員想從事數據科學方面的事職業,那么應該考慮學習這三種語言的一種。
(1)R語言
Panetta表示,R是一種用于數據挖掘人員開發統計軟件和數據分析的語言和框架。
Facemire說,過去幾年數據分析和數據科學變得越來越流行,這對編程語言發生了巨大的沖擊。然而,其受歡迎程度已趨于平穩。R語言具有為數據科學家構建的工具,可以專門用于擴展和插件。
Panetta說:“學習像R語言的人們必須了解基本的數學技能。如果我們只是信任軟件的輸出,不知道我們真正測量的是什么,而不理解我們提供的數據作為輸入,其結果將是災難性的。”
(2)Python
Python是一種通用的語言,它已經很強大,并且包括可以適應需要在網站或移動設備上顯示的可視化環境的工具,Facemire說。Python也比R更加易讀。
技術人員如果問道,“如果在考慮我的職業生涯時,我想成為一名數據科學家,那么我應該學習哪種語言?”Facemire說,“那么我會推薦R和Python,看看哪個語言對你有意義,這二者都是絕對可行的”。他補充說,企業通常根據數據科學家的技能要求優先考慮編程語言。
(3)Java
根據WPEngine的一項調查,Java最近被列為最受歡迎和最通用的語言之一。它是另一種通用編程語言,它被專門設計為盡可能少地實現依賴關系。它可以用來構建任何東西,特別是可伸縮的多線程平臺,并且具有強大的用戶基礎。
Panama說,Java也是一種解釋語言。與C和C++不同,Java語言不需要對硬件有著更多的了解。這使得計算機科學與工程以外的學習人員更容易學習。事實上,Java在技術職位方面也是需求最多的編碼語言。