在2017年數據社區將會有大量的機會出現,并伴隨一些危機性的挑戰,下面是對上述問題的縱觀。
1.更多的數據科學家將開始使用深度學習
縱觀2016年深度學習領域所取得的主要成就,與那些讓深度學習變得更加簡單的工具發布,以及直接讓現有大數據平臺和架構整合在一起的工具。顯而易見,數據科學家在2017年已不得不選擇深度學習,因為通過它可實現的價值已經愈來愈多。看看時間序列和事件數據(包括異常檢測),物聯網以及傳感器相關的數據分析,語音識別,以及文本挖掘推薦,深度學習的用例還有很多。
2.對數據工程相關技能的需求將會持續上升
《哈佛商業評論》雜志在2012年的時候將數據科學家稱為“21世紀最性感的職業”,但愿在2017年里對數據科學家的需求會延續下去,但是人才需求將會主要集中在數據工程師(遠多于數據科學家)。許多公司在尋找會編程的數據科學家,從而將會需要更多的可以接觸生產系統的數據科學家。這些是獨一無二的技能,他們也同樣會獲得除了薪水之外的快樂。
3.越來越多的公司將會在云端使用托管服務
一項最新的O’Reilly調查顯示,一個組織在云端感受完大數據之后,往往會催生出更多類似的大數據服務。
現如今很多公司都接觸了能夠提供存儲、數據處理、可視化、分析以及人工智能的托管服務。雖然業內已存在很多可以解決這些問題的開源組件,但專有的托管服務逐漸被證明成為了大眾的選擇。因為這些工具將會被服務提供商所管理,機構內部的數據專業人士將能夠關注手頭的問題而不用考慮需要使用什么樣的工具——不過他們得學習如何設計、搭建以及管理在云端運行的應用。
4.并不是所有的東西都會遷移到公共云
遺留系統、敏感的數據、安全、合規以及隱私問題將會需要一個混合的架構。這里同樣會存在使用定制甚至是私有云的應用,就像為工業物聯網設計的Predix或者AWS的CIA。許多公司將會需要能夠應對復雜情況的解決方案架構。
5.數據的民主化:任務因工作更簡單而簡化
提供自助分析的新工具使得許多數據分析的任務變的更加簡單。有一些甚至都不需要編程,同時另外一些工具使得在一個工作流下融合代碼、圖像和文本變得更加簡單。這些并不是統計學家或者數據極客的授權用戶們做著常規的數據分析,讓數據專家們有了更多的時間去處理復雜的項目或者去優化端到端的傳輸途徑和應用。
在這幾年里這一切都在發生,我們發現許多使得先進的分析更加民主化的工具正在興起(譬如微軟的Azure),能夠支持對大規模的流數據資源進行采集,還使得先進的機器學習能夠得到發展和應用(像谷歌的Cloud Platform和亞馬遜的Machine Learning)。
6.儲存和計算的分離將會加速
加州大學伯克利分校的AMPlab項目在去年十一月已經完成,但是在Apache Spark和Alluxio背后的團隊并不是唯一一個強調存儲和計算相分離。正如上面所說的那樣,存儲在云端的流行項目甚至一些最新的深度學習架構使得這個典范更加突出。
7.筆記本和工作流工具會的得到持續的發展
Jupyter的筆記本因為具有能夠提供可以解決包括數據清洗、轉換、數字化的仿真、統計學模型和深度學習在內許多問題的多元化架構而被數據科學家們使用和重組。(譬如O’Reilly使用Jupyter筆記本作為Oriole Interactive Tutorials的基礎)。它對數據小組來說十分有用,因為在notebook里能夠創造和分享包含動態代碼、公式、可視化和說明性文本在內的文件。通過將Jupyter和Spark連接,你將能夠通過簡單接口使用Spark編寫Python代碼而不是使用Linus的命令輸入或是Spark shell。
數據專家們將會一直使用多樣化的工具。Beaker筆記本能夠支持很多編程語言,現在還有將Spark社區作為目標的復合筆記本。(Spark Notebook、Apache Zeppelin及Databricks Cloud)。但并不是所有的數據專家都使用筆記本:因為筆記本不能適應對復雜數據渠道的管理,工作流工具更加適合這點。數據工程師門喜歡軟件開發者使用的工具。隨著深度學習和其他新技術進入數據科學和大數據社區,我們估計現存的工具將會得到進一步的發展和優化。
8.數據社區將會進一步找出方法來解決像隱私和倫理道德一樣的問題。
由于機器學習的普及化、數據資源的多樣化以及算法的復雜化,使得透明度變得越來越難實現。在數據應用中實現公平變得比以往更加具有挑戰性。縱觀2017年我們希望能夠看到涉及以下幾個方面的國家政策的討論:對偏見測試的最佳實踐以及偏向的理論導致偏向結果的意識在不斷提升。
關于作者:Ben Lorica 是O’Reilly 媒體公司的首席數據科學家。