隨著更多新興工具和技術(shù)的出現(xiàn),許多企業(yè)正在努力應(yīng)對當(dāng)今大數(shù)據(jù)和數(shù)據(jù)科學(xué)生態(tài)系統(tǒng)的復(fù)雜性。
根據(jù)TDWI(數(shù)據(jù)倉庫研究所)的最新研究,專業(yè)數(shù)據(jù)科學(xué)家的短缺仍然是企業(yè)面臨的數(shù)據(jù)科學(xué)的挑戰(zhàn)之一。
TDWI公司副總裁兼研究總監(jiān)Fern Halper說:“我們經(jīng)常聽到很多組織表示,在數(shù)據(jù)科學(xué)環(huán)境中面臨的最大挑戰(zhàn)是找到合適的技術(shù)和工具。”
該研究收集了超過300家企業(yè)的大數(shù)據(jù)和數(shù)據(jù)科學(xué)經(jīng)驗(yàn)。大數(shù)據(jù)分析和數(shù)據(jù)科學(xué)經(jīng)驗(yàn)這兩個主題越來越融合,因?yàn)榻M織需要了解過去幾年中收集大量數(shù)據(jù)的工作者。
此次調(diào)查的受訪者列舉的其他常見挑戰(zhàn)還有:缺乏對大數(shù)據(jù)工具的了解,缺乏利用大數(shù)據(jù)所需的企業(yè)架構(gòu),安全和隱私問題以及治理協(xié)議不足等問題。
尤其是技術(shù)方面的問題特別棘手。Halper表示,在過去幾年中出現(xiàn)了許多新工具,包括Hadoop,Spark,Python等等,企業(yè)很難確保跟上這些新工具、新技術(shù)快速發(fā)展的步伐。
有些受訪者認(rèn)為很多技術(shù)讓人眼花繚亂,其中不乏炒作的因素,他們有時不知道該怎樣面對技術(shù)的迭代更新。另外一些人認(rèn)為技術(shù)和工具變更速度很快,如果缺乏敏捷性,他們不一定能保持最好的架構(gòu)。
現(xiàn)在,企業(yè)都在使用自己熟悉的工具和技術(shù)應(yīng)對數(shù)據(jù)科學(xué)的挑戰(zhàn)。約80%的受訪者表示他們目前使用數(shù)據(jù)倉庫工具作為主要數(shù)據(jù)源。對于分析而言,簡單的查詢和數(shù)據(jù)可視化工具是最常用的。在接下來的兩年中,數(shù)據(jù)倉庫工具將依然廣受歡迎,與此同時,Hadoop和開源R也受到更多企業(yè)的青睞。
Halper說,調(diào)查結(jié)果顯示出非結(jié)構(gòu)化數(shù)據(jù)查詢和預(yù)測分析(包括機(jī)器學(xué)習(xí))的強(qiáng)勁勢頭。這些新興工具和技術(shù)似乎將在未來將徹底取代更多的工具。
“數(shù)據(jù)倉庫不會消失,但它正被其他類型的平臺取代,并創(chuàng)建一個生態(tài)系統(tǒng),” Halper說, “預(yù)測分析是一項(xiàng)熱門技術(shù),再加上機(jī)器學(xué)習(xí)的驅(qū)動,未來的發(fā)展勢頭不可小覷。”