2016即將結束,外媒KDnuggets日前針對大數據領域在2016年度取得的重大發展,以及2017年度可能出現的變化趨勢,詢問了8位行業內的頂級專家。
雖然各位專家的意見不盡相同,但從其發言中大約可以總結出一個共通點:大數據研究正在由前幾年的新鮮技術變得越來越普及和商業化。同時,由于研究的向前推進,以數據為基礎的人工智能、機器學習和物聯網等其他各個領域也將會取得越來越大的成果。
1. Craig Brown,大數據、數據科學、數據庫技術領域專家。美國知名的青年導師、科技導師,以及作家。
在2016年,數據科學領域出現了一次大規模的數據增長。這一增長從需求端推動了諸多云計算服務供應商的快速成長,包括亞馬遜AWS、微軟Azure和Rackspace等。我認為,數據增長的勢頭將在2017年得到延續。并且,2017年將會出現更多的基于這些大數據研究的應用項目,包括機器學習、認知計算以及預測分析等。不過,隨著數據量的增加,應用項目的逐漸豐富,用戶的數據安全問題也將變得日益嚴峻,這一點在2017年也不會有很大改善。2017年,數據科學家、首席數據官、首席數據架構師等職位將變得越來越搶手,崗位職責和定位也會越來越明晰。實時數據流和功能更強大的數據傳輸通道將徹底顛覆所謂“快速數據”(fast data)和“可操控數據”(actionable data)的定義。
總體上說,大數據科學仍然是一個處于不斷發展中的學科,在2017年,這一學科一定會迎來比2016年更大的發展。如果把大數據比作一輛汽車的駕駛員,那么在這位駕駛員的帶領下,未來基于大數據的各種實際應用項目將會越來越豐富,也即這輛汽車上的乘客會越來越多。
2. James Kobielus,大數據領域專家,IBM公司大數據研究首席科學家。
分布式框架Hadoop在大數據領域的重要性正在日漸減弱,MapReduce模型、HBase數據庫,甚至分布式文件系統HDFS在大數據科學家眼中也遠沒有從前重要了。
2017年最顯著的變化趨勢應該來自于程序員群體,他們將越來越關注數據庫領域的編程技能,通過這一技能的提升,獲得更多的職業發展優勢。我認為在2017年,最熱門的大數據科學應用項目將會聚焦于流媒體分析、嵌入式深度學習、物聯網、聊天機器人、認知計算、自動駕駛、計算機視覺和語音識別等領域。同時,我們也將會看到,新一代的神經網絡芯片、GPU和其他的高性能認知計算框架也將在明年得到更大的發展。
3. Douglas Laney,美國著名咨詢公司Gartner副總裁,首席分析師。
2016年,大數據領域一個最大的變化就是人們不再談論大數據了,因為大數據已經充斥了我們的生活,隨處可見。現在大家關注的焦點變成了如何將大數據業務化、商用化。在Gartner內部,我們和客戶現在談論最多的問題是如何管理、評估信息資產,以及如何將信息資產變現。
2017年,我們應該努力搞清楚大數據領域幾項重要的權利和義務,包括數據的所有權、特權和隱私權,特別是由物聯網產生的數據。另外,關于數據能否被視為一種全新形態的資產,這一問題會繼續引發會計行業、律師行業和保險行業的困惑。但隨著機構投資人和股票分析師們越來越關注一家企業的信息化進程,傳統行業的這種困惑將會有所緩解。2017年,各行各業都將會更加關注大數據領域的人才招攬,例如數據經理人和其他的信息整合者。
4. Yves Mulkers,知名博客一切皆數據(All Things Data)博主之一,負責維護大數據板塊。
在2016年,大數據這個詞似乎不像前幾年那樣熱門。隨著大數據相關的基礎設施、服務器、軟件系統和理論體系的持續發展,目前大數據分析方面的解決方案已經逐漸成熟,并且越來越普及,而不像前幾年那樣還是少數科技極客眼中的新領域。隨著技術的成熟,自助和自動化的信息服務也將越來越受到重視。大數據分析工具和相關的解決方案雖然會變得越來越簡單易用,但我們仍然需要具備基本的通信技術和信息處理領域的專業知識,隨時準備迎接下一個發展階段的到來。未來,和機器學習、人工智能、VR/AR、物聯網相關的大數據解決方案將越來越完備,摩爾定律的邊界也會受到更多的挑戰。
5. Mark van Rijmenam,Datafloq網創始人,大數據相關書籍《Think Bigger》作者。
對于大數據領域來說,2016是令人激動的一年,因為“大數據”終于不再是一個流行詞。這說明研究者們正在基于大數據開發真實可用的解決方案和應用程序,而不再是簡單的噱頭。
2017年,隨著技術的進步,以大數據為基礎而開發的應用將越來越豐富。由于計算機的計算能力和真實可用的龐大數據量不再是問題,因此以人工智能和深度學習為代表的智能應用也將變得更加聰明,更加普及。總體上說,由于大數據、智能應用和越來越豐富的智能終端產品的出現,2017年應該是值得我們期待的一年。不過,隨著大數據的廣泛應用,數據安全和隱私問題也將越來越嚴峻。
6. Ronald van Loon,Adversitement網站主管,大數據科學領域年度10大影響力人物之一。
今年是大數據科學領域產生重大變化的一年。可以看到,無論是單一學科還是跨學科的用戶,在這一年中都在向著以數據驅動為核心的組織架構調整。而且通過物聯網的進一步普及,我們已經在某些核心應用場景積累了大數據處理和傳輸的寶貴經驗。另外,由于強大的云計算平臺的支持,越來越多的機器學習應用也正在研發之中。
在2017年,這一趨勢將得以延續,人工智能、機器學習和物聯網應用在大數據的支撐下將迎來一個爆發性的增長。目前,技術研發能力已經就緒,對于市場需求的靈活迭代機制也越發成熟,根據預測,截止2020年,接入互聯網的設備總數將達到100億-340億之間。
7. Jeff Ullman,斯坦福大學計算學科教授,主要研究數據庫理論、數據庫集成一體化和數據挖掘等。
歐盟剛剛針對大數據的使用和分析模型的建立出臺了一個新的隱私保護法(雷鋒網獲悉,這一法案將于2018年1月起正式施行)。現在還無法確定這一法案將會造成怎樣的影響,但有一點似乎可以確定,那就是它將在很大程度上避免深度學習領域內由于分析模型亂用導致的意外問題。目前許多公司都在與歐盟溝通,試圖確認究竟哪些數據資源和分析模型是可用的,而哪些不行。比如說,谷歌可以探測一封郵件的內容,并且將其和已知的垃圾郵件對比,如果內容類似就判定這封郵件為垃圾郵件。那么谷歌到底有沒有讀取用戶郵件的權利?這些問題都還有待確定。
8. Matei Zaharia,Databricks平臺首席科學家,大數據處理框架Apache Spark創始人。
1) 公有云正在成為部署大數據應用的主流平臺。根據今年夏天的用戶調查結果顯示,在公有云部署Spark框架的用戶比例高達61%,而使用Hadoop YARN的用戶則只有36%。更重要的是,使用公有云的61%的用戶去年只有51%,而使用Hadoop YARN的用戶則從去年的40%下滑到36%,這說明公有云的用戶正在持續的增長。分析原因,這或許是由于亞馬遜AWS S3這樣的云服務產品正在變得越來越經濟,性能越來越穩定,易用性也越來越好。
2) 今年7月,我們發布了Apache Spark 2.0版,這一版本針對Spark SQL和數據幀(Dataframes)在新款硬件的使用方面進行了較大的性能提升。值得一提的是,我們已經看到2.0版的使用率正在快速增長,目前大約有40%的集群用戶正在使用它。這說明用戶需要對新硬件建立快速的支持。