迄今為止世界范圍內已經有超過200位數據科學家參與了調查,然而結果顯示并沒有一種在數據科學領域占絕對優勢的編程語言,但是也似乎主要集中在有限幾個選項里:幾乎96%的參與者斷言至少要用R,SQL或者Phython中的一種。
數據的爆炸增長以及公司將數據轉化為商業價值的巨大可能性,不斷增加著市場對數據科學家的需求。
但是,一個合格的數據科學家必須具備哪些技能,擁有什么樣的教育背景呢?數據科學家在團隊中的角色是什么?數據科學家大多使用什么工具和編程語言呢?這些就是米蘭理工大學的大數據分析觀測臺通過一項針對數據科學家的國際調查正在研究的部分問題。如果你的工作與數據有關,也可以支持一下這個完全匿名的調查( survey)。
除了基礎的數據科學相關的技能,編程是數據科學家務必要具備的五種主要能力之一,即使就專業知識而言這不是最相關的。
迄今為止世界范圍內已經有超過200位數據科學家參與了調查,然而結果顯示并沒有一種在數據科學領域占絕對優勢的編程語言,但是也似乎主要集中在有限幾個選項里:幾乎96%的參與者斷言至少要用R,SQL或者Phython中的一種。
值得一提的是,當前的調查中排名第一的是53%的數據科學家選擇的的由R Foundation for Statistical Computing提供支持的R語言。一開始R主要是在統計學家或學術圈內流行,但近幾年被相當多的應用于數據科學。如今R是最受歡迎的開源語言之一很多大型的網絡社區都支持它。
即使早在20世紀70年代初就得以發展,SQL在當今仍然發揮著重要作用(約49%的數據科學家選擇SQL,排名第二)。盡管SQL不太適合處理非結構化的數據組(典型的比如大數據),但是分析組織中結構化的數據仍然很有必要,而SQL就非常適合用來處理這類數據。
排名第三的Python(43%)因為靈活而且相當容易上手,近幾年大受歡迎。和R語言一樣,也有很多大型社區致力于促進Python的提高并且建立一些特定的packages。
前五名中最后兩個分別是Unix Shell/AWK/Gawk(15%)和Java(8%)。