《企業網D1Net》11月19日訊
現在,我們都知道,“21世紀最性感的工作”是數據科學家。大量的文章和博客描述數據科學家和他們的素材——大數據,揭示了幾個“性感”的主題。第一,數據是無處不在的、巨大的并且以不斷增長的速度向我們襲來。第二,傳統那種的用于與20世紀的數據提取和分析的工具不能與大數據相協調。第三,很少有人能夠把這些如海嘯般的數據翻譯成有用的信息,使得他們成為人才市場的搶手貨。
麥肯錫估計,到2018年,將有近20萬人的高級分析人才的缺口。毫無疑問,數據科學家的將會非常受歡迎。
因此,這方面的需求再加上全國范圍內的高失業率,那么大學生從事數據工作的門檻是比較低的,這樣想對么?遺憾的是,答案是錯的。并非是學生沒有興趣讀那些有關數據的科學。大家都想成為人才市場的搶手貨。問題的關鍵在于沒有大學教授數據科學這門課。
我們了解到大學在關鍵的地方沒有很好的滿足市場的需求的原因——一個是很少大學有經驗或能力去教授大數據分析這門課,另一個是大教室里缺乏實際的大數據。
作為一個學者以及前實踐統計學家和咨詢師,我認為,大學必須去突破這個難題并且和私營和公共部門合作從而解決人才缺口的問題。具體而言,我給出三個有關數據科學領域的考慮:
1、數據不應該是一個本科學位。它的學科范圍太寬、太細致,對于一個18歲的學生來說要求太高。對于數據科學有興趣并且最終學習數據科學的本科生,他們需要學習數學、計算機科學,還要選修金融、生物、社會學。在他們的本科課程中,學生必須提高他們的理解能力從而獲得更寬闊、更深層次的專業能力,以提高他們在一領域的競爭力。
2、任何數據科學的研究生學位必須整合數學、統計學和計算機科學。對于許多大學來說,這是個嚴峻的挑戰,因為這些學科被分配在不同的科系甚至不用的學院。數據科學本身是跨學科的。任何碩士或博士學位,必然包括:
1)有計算數學方面的基礎,比如矩陣代數、組合數學和圖論。這是非常重要的,因為其他能力必須與數學方面的能力一起發展。
2)編程,也就是說具有強大分析能力的面向對象編程,如SAS和R以及強大的面向對象編程語言,如C + +、Java、Hadoop或Python。一些具有高性能分析的課程是非常有意思的。
3)統計分析、模型發展和數據可視化。這些技能是不會過時的,而是不斷發展的。
4)有內容領域工作方面的知識。畢竟,數據科學在實際運用而不是理論方面有很大的作用。
5)一個實習或工作經驗的部分。這個的重要性再怎么強調也不為過。如果你嘗試教一個人從書本上學習游泳的課程,那么當他被丟到游泳池的時候會被淹死。研究數據科學的研究生需要有復雜的、非結構化數據的實際工作經驗。假如我們想在教室里創造實際經驗,最終將不會學習到真正的知識。
3、研究。這是個新興的但是大有作為的研究領域。新的問題每天層出不窮。數據科學,和醫學非常類似,不同于傳統的理論,而是科學本身應用的研究。會議給研究生提供了巨大機會,諸如給白皮書提出新的代碼、針對新的問題給出創造性的解決方式甚至對于新出現的問題給出新的命名和結構。這些都是數據科學這塊富礦的部分研究。
一些公司,如如EMC / Greenplum和IBM繞過大學而與一些數據科學家直接在一起做研發工作。由于缺乏研究人才,這是一個合理的短期反應。但是如果人才缺口的問題想要解決,從長遠來看,高校應該重新考慮如何完善這門課程的教學。