計算器的工作曾經由人來做;網站管理員曾經是熱門職業;中層管理人員也曾配備過秘書。技術的迭代變革了一批又一批職業,數據科學家也不會例外……
在每種情況下,硬件和軟件的進步都需要專業技能,再將它們交到通用人才的手中。在專業人員失業的同時,這些技術的民主化引發了創新、商業和創造就業的浪潮。
同樣,我堅信數據科學家的工作在五到十年內就會過氣。相反,經濟領域各行各業的終端用戶都將會使用數據科學軟件,就像現在的非技術人員使用 Excel 一樣。事實上,那些數據科學的工具可能只是 Excel 2029 中的一個選項卡而已。
當今的金融分析師不再需要聘請數據科學家來幫助他們,因為他們所使用的平臺已經提供了他們所需的數據科學工具。這在其他領域也會變得普遍,因為對數據科學的基本了解已經成為許多工作的必需技能。與此同時,很多數據科學的工作也正在實現自動化,一些觀察人士提出警告,稱數據科學家可能正在讓自己失去現有的工作。
數據科學不斷飆升的人氣
數據科學這一職業正在經歷「淘金熱」時期。2018 年彭博社(Bloomberg)的一篇文章將數據科學稱為「全美最熱門職業」,因為從 2015 年 1 月到 2018 年 1 月,招聘網站 Indeed.com 上的數據科學家需求增加了 75%。文章還提到,在一些咨詢公司,數據科學博士的薪水為 30 萬美元。
同時,美國數十所大學都推出了數據分析項目。加州大學伯克利分校(UC Berkeley)在 2018 年新開設了數據科學專業,該專業很快成為了學校最受歡迎的專業之一。去年十一月,該校開設了新的數據科學與信息系,并將其稱為「幾十年內最大的重組」。
但這些年輕人即將進入的行業將在未來10年內發生翻天覆地的變化。盡管他們的數據科學技能可以成為一項穩定的職業財富,但他們中會直接成為數據科學家的人可能少得驚人。
從機器編碼到大規模編碼再到數據自動化
當我在學習計算機科學時,編譯器設計是必修課。我們需要了解如何將像 C 語言這樣的編程語言直接轉換成機器語言,也就是計算機可以直接解釋的十六進制代碼。用機器語言來編寫商業應用程序以獲得更高的性能是很常見的做法。
在過去的幾十年間,連續的軟件功能層被抽象為更高級的開發工具?,F如今的大多數代碼都是用像 Python 這樣簡單易學的高級語言完成的,相對而言,程序員很少需要了解如何直接和硬件對話。
數據科學也在快速地走著同樣的道路。在未來的三到五年,越高級的工具對基礎技術的需求會變得越低,這些基礎技術包括高性能計算(CPU 的分區問題)、數據整理(準備原始數據以便進行分析)以及機器學習系統內部或初級統計方法等。所有這些過程都將在機器內部進行。
如今,包括 Trifacta、Element Analytics 和 Kylo 在內的數十家公司都在推出新的數據分析工具,它們中的大多數旨在減少繁瑣的數據準備工作,幫助數據科學家迅速完成分析工作。此外還出現了可以自動選擇算法和調整參數的數據科學框架(如 Auto-sklearn 和 DataRobot)。這些框架和工具與數據管理平臺相結合,為未來的數據消費者建立了大型構建塊。
數據科學家的前進道路
在未來幾年,我認為數據科學家將至少分為五類:
通用人才:第一類是數據科學的通用人才,他們會對數據做出解釋并使用數據。這些人的工作是指導終端用戶,幫助用戶對數據提出問題,但他們并不會自己找出答案。這更像是一個過渡性的工作,更可能在五年內出現。
行業專家:由行業專家組成的是第二類,也是人數最多的一類。他們將在制造、醫藥科學以及金融這樣的特定垂直領域中使用數據科學技術和工具。我認為未來的大部分工作崗位都在這里。但這也不是數據科學工作。這些人不是了解制造業的數據科學家,而是了解數據科學的制造業領袖。相當于今天的以統計學為王牌的研究員。
深度專家:有專業數據科學技術的深度專家組成了第三類,也是人數最少的一類。這一類人從事的是純數據科學工作。他們的工作是以抽象的方式研究數據科學、提升算法性能并設計出新的通用方式。他們就像如今的計算機科學家,主要工作是建立理論基礎,而非解決日常問題。
分析開發人員:第四類是從數據科學家轉為分析開發的人。這些人是軟件開發專家,他們的工作是處理數據交互問題,以及通過數據報告幫助人們做出推論。算法設計也是他們工作的一小部分,數據平臺和以一站式方式完成大量工作的魯棒代碼庫會輔助他們。
數據工程師:另外,還會催生出像數據工程師這樣的新工作,他們會構建將數據轉換并傳輸到基礎平臺的管道,在這個管道中會對數據進行分析和可視化。盡管數據科學家通常因他們出色的算法而得到認可,但他們高達 80% 的時間都花在收集數據、清理數據和組織數據上。
結論
在十年內,數據科學將會融入特定行業的應用和廣泛應用的生產力工具中,因此我們可能認為它不再是一個熱門行業。正如一代又一代的數學和統計學的學生不會再將自己視為數學家或統計學家,而是在商界和學術界中扮演了各種各樣的角色,新崛起的數據科學的畢業生未來也將會成為制造工程師、營銷領導者以及醫藥科學領域的研究人員。