2001年,分析師Doug Laney建議對大數(shù)據(jù)進行定義,其中包括三個V:數(shù)量(volume)、速度(velocity)和種類(variety)。在接下來的幾年中,Laney的定義成為了行業(yè)標準,并且有些人在這個定義中增加了第四個V- 變異性(variability)。
2005年,當雅虎公司推出Hadoop開源分布式數(shù)據(jù)存儲時,大數(shù)據(jù)技術向前邁進了一大步。該項目成為整個商業(yè)和開源數(shù)據(jù)存儲和分析解決方案生態(tài)系統(tǒng)的關鍵。
2014年,IDC公司和EMC公司發(fā)布了他們最新的數(shù)字宇宙的研究報告,報告顯示全球數(shù)字系統(tǒng)存儲的數(shù)據(jù)量每年增長40%。這些研究機構預測,到2020年,數(shù)字世界將擁有44澤字節(jié)的信息,而這幾乎與宇宙中的恒星數(shù)量一樣多。
如今,大數(shù)據(jù)當然沒有變得更小,但是增長數(shù)據(jù)存儲的規(guī)模不再像以前那樣受到關注。相反,大多數(shù)組織都專注于分析、數(shù)據(jù)科學和機器學習。他們已經(jīng)接受管理大數(shù)據(jù)只是公司業(yè)務的一部分的事實,如果他們想要競爭并取得成功,他們需要找到方法將這些大數(shù)據(jù)變成寶貴的見解。
大數(shù)據(jù)市場概述
大數(shù)據(jù)技術的企業(yè)支出在過去十年持續(xù)攀升。根據(jù)IDC公司的數(shù)據(jù),全球大數(shù)據(jù)和業(yè)務分析收入可能從2017年的1508億美元增長到2020年的2100億美元,年復合增長率為11.9%。
IDC公司副總裁Dan Vesset表示:“經(jīng)過多年的采用后,大數(shù)據(jù)和業(yè)務分析解決方案終于成為主流。大數(shù)據(jù)分析作為決策支持和決策自動化的推動者現(xiàn)在已經(jīng)得到企業(yè)高層管理人員的高度關注,這種類型的解決方案也是在全球各個行業(yè)和業(yè)務流程中實現(xiàn)數(shù)字化轉型工作的關鍵支柱之一。”
研究報告表明,企業(yè)的大數(shù)據(jù)舉措正在對他們的利潤產(chǎn)生積極影響。在NewVantage Partners進行的大數(shù)據(jù)高管調(diào)查中,80.7%的受訪者表示他們的大數(shù)據(jù)投資是成功的,48.4%的受訪者表示他們已經(jīng)通過大數(shù)據(jù)舉措實現(xiàn)了可衡量的收益。
這些結果可能會鼓勵企業(yè)繼續(xù)投資大數(shù)據(jù),但他們采用的大數(shù)據(jù)解決方案類型正在發(fā)生變化。根據(jù)Forrester Research公司的調(diào)查報告,“大數(shù)據(jù)轉向云計算是事實,通過云訂閱的全球大數(shù)據(jù)解決方案支出的增長速度將比內(nèi)部訂閱快7.5倍。”
該公司補充說,“此外,根據(jù)2016年和2017年對數(shù)據(jù)分析專業(yè)人士的調(diào)查,公共云是大數(shù)據(jù)的首要技術優(yōu)先事項。”
采用云計算對于依賴機器學習技術的大數(shù)據(jù)分析來說特別流行。采用機器學習需要先進且昂貴的計算硬件,但在云中運行機器學習使組織能夠以自己的數(shù)據(jù)中心所花費成本的一小部分來采用該技術。雖然企業(yè)面臨著與云計算分析相關的一些挑戰(zhàn),但專家表示,這種云計算分析趨勢在未來幾年可能會加速實現(xiàn)。
大數(shù)據(jù)技術的市場細分
隨著大數(shù)據(jù)市場的成熟,供應商開發(fā)了各種各樣的大數(shù)據(jù)技術來滿足企業(yè)需求。這是一個非常廣闊的市場,但大多數(shù)大數(shù)據(jù)解決方案都屬于以下幾類之一:
•商業(yè)智能(BI):商業(yè)智能解決方案為通常存儲在數(shù)據(jù)倉庫中的業(yè)務數(shù)據(jù)提供分析和報告功能。根據(jù)Gartner公司的預測,商業(yè)智能和分析市場預計將從2017年的183億美元增加到2020年的228億美元。然而,這一增長速度比過去有所放緩。
•數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是一個廣泛的類別,涵蓋了用于查找大數(shù)據(jù)模式的各種技術。雖然許多大數(shù)據(jù)解決方案仍然提供數(shù)據(jù)挖掘功能,但這個術語已經(jīng)不太受歡迎,因為供應商使用“預測分析”和“機器學習”等術語來描述他們的解決方案。
•數(shù)據(jù)集成:大數(shù)據(jù)分析的一大挑戰(zhàn)是收集來自不同來源的所有相關數(shù)據(jù),并將其轉換為可易于分析的格式。這導致了大量的數(shù)據(jù)集成解決方案,這些解決方案有時也被稱為ETL(簡稱“提取、轉換、加載”)解決方案。根據(jù)調(diào)查數(shù)據(jù),到2022年,數(shù)據(jù)集成的市場收入可能會達到124億美元。
•數(shù)據(jù)管理:這類解決方案包括幫助組織整合、清潔、存儲、保護和確保其數(shù)字數(shù)據(jù)質量的工具。調(diào)查報告中預測,到2022年,這類大數(shù)據(jù)工具的市場收入將達到1052億美元。
•開源技術:許多最廣泛使用的大數(shù)據(jù)技術可以在開源許可證下獲得。特別是由Apache基金會管理的Hadoop和Spark等技術已經(jīng)非常流行。許多供應商提供這些開源大數(shù)據(jù)技術的商業(yè)支持版本。
•數(shù)據(jù)湖:數(shù)據(jù)湖是一個存儲庫,可以從各種來源獲取數(shù)據(jù)并以原生格式存儲數(shù)據(jù)。這與數(shù)據(jù)倉庫有所不同,后者存儲已經(jīng)過清理和格式化以用于分析的數(shù)據(jù)。數(shù)據(jù)湖泊很受希望對結構化數(shù)據(jù)和非結構化數(shù)據(jù)執(zhí)行分析的組織的歡迎。
•NoSQL數(shù)據(jù)庫:與關系數(shù)據(jù)庫管理系統(tǒng)(RDBMSes)不同,NoSQL數(shù)據(jù)庫不會將信息存儲在具有行和列的傳統(tǒng)表中。相反,他們使用其他模型,如列、文檔或圖形來跟蹤數(shù)據(jù)。許多企業(yè)使用NoSQL數(shù)據(jù)庫來存儲非結構化數(shù)據(jù)進行分析。
•預測分析:目前最流行的大數(shù)據(jù)分析形式之一,預測分析著眼于歷史趨勢,以便對未來可能發(fā)生的事情提供一個良好的估計。許多現(xiàn)代預測分析解決方案都集成了機器學習功能,使他們的預測隨著時間的推移變得更加準確。在Zion Market Research公司的調(diào)查報告中,預測分析支出可能從2016年的34.9億美元上升到2022年的109.5億美元。
•規(guī)定性分析:規(guī)定性分析比預測分析更進一步。除了告訴組織未來可能發(fā)生的事情外,這些解決方案還提供了建議的行動方案,以實現(xiàn)預期的結果。專家表示,目前市場上很少有(如果有的話)大數(shù)據(jù)分析解決方案具有真正的規(guī)范功能,但這是供應商進行深入研究的一個領域。
•內(nèi)存數(shù)據(jù)庫:內(nèi)存技術使得大數(shù)據(jù)分析顯著加快。在任何計算機系統(tǒng)中,訪問內(nèi)存中的數(shù)據(jù)(有時也稱為RAM)比訪問存儲在機械硬盤驅動器或固態(tài)硬盤驅動器上的數(shù)據(jù)要快得多。內(nèi)存數(shù)據(jù)庫允許用戶將大量數(shù)據(jù)存儲在內(nèi)存中,從而大大提高速度。
•人工智能和機器學習:許多下一代大數(shù)據(jù)分析工具都集成了機器學習,這是人工智能(AI)的一個子類。機器學習使用算法來幫助系統(tǒng)隨著時間的推移逐漸完善,而不需要明確的編程。這是大數(shù)據(jù)市場增長最快的領域之一。
•數(shù)據(jù)科學平臺:許多供應商已開始將其大數(shù)據(jù)分析解決方案標記為“數(shù)據(jù)科學平臺”。這一類產(chǎn)品通常在統(tǒng)一平臺中包含許多不同的功能。幾乎所有這類產(chǎn)品都具有一些分析和機器學習功能,而且還有許多產(chǎn)品也具有數(shù)據(jù)集成或數(shù)據(jù)管理功能。
全球主要的大數(shù)據(jù)公司
考慮到市場上包含如此多不同類型的大數(shù)據(jù)解決方案,所以有很多的公司提供大數(shù)據(jù)產(chǎn)品就不足為奇。下面的列表包括一些全球最知名的大數(shù)據(jù)公司,但還有很多其他的公司。
•亞馬遜網(wǎng)絡服務公司(AWS)-提供云存儲、數(shù)據(jù)庫、數(shù)據(jù)倉庫、分析和機器學習服務
•Alpine Data Labs -現(xiàn)在由Tibco公司所有,提供數(shù)據(jù)科學和機器學習平臺
•Alteryx-提供自助式大數(shù)據(jù)分析平臺
•Big Panda-提供監(jiān)測和管理IT事件數(shù)據(jù)的分析
•Cloudera - 提供Hadoop發(fā)行版,以及數(shù)據(jù)科學和大數(shù)據(jù)分析工具
•Databricks - 由Apache Spark團隊創(chuàng)建,提供由Spark支持的統(tǒng)一分析平臺
•Dataiku - 提供協(xié)作式數(shù)據(jù)科學平臺
•Datameer - 提供靈活的數(shù)據(jù)管道管理平臺
•DataStax - 由Apache Cassandra數(shù)據(jù)庫背后的團隊創(chuàng)建,提供基于Cassandra的分布式云數(shù)據(jù)庫
•Domino - 提供了一個數(shù)據(jù)科學平臺
•FICO - 提供數(shù)據(jù)分析工具,包括人工智能和機器學習軟件以及打擊欺詐和網(wǎng)絡犯罪的解決方案
•谷歌云-提供基于云計算的存儲、數(shù)據(jù)倉庫、分析、機器學習等技術
•GridGrain - 提供基于Apache Ignite的內(nèi)存計算平臺
•H2O.ai - 提供基于開源技術的數(shù)據(jù)科學和機器學習平臺
•Hitachi Vantara -由日立數(shù)據(jù)系統(tǒng)、日立Insight集團和PunaHo合并而成,提供數(shù)據(jù)集成、大數(shù)據(jù)分析、存儲和相關產(chǎn)品
•Hortonworks - 提供流行的Hadoop發(fā)行版以及其他大數(shù)據(jù)工具和服務
•HPCC - 提供分布式大數(shù)據(jù)平臺,可替代Hadoop
•HPE - 提供大數(shù)據(jù)硬件和服務
•IBM - 提供大數(shù)據(jù)云服務,以及數(shù)據(jù)庫、數(shù)據(jù)倉庫、分析和機器學習軟件
•Informatica - 提供基于云計算的數(shù)據(jù)管理平臺,提供各種大數(shù)據(jù)解決方案
•KNIME - 提供數(shù)據(jù)挖掘和分析軟件
•MapR--提供融合數(shù)據(jù)平臺,以及大數(shù)據(jù)存儲、分析、機器學習和NoSQL數(shù)據(jù)庫
•MarkLogic - 提供NoSQL數(shù)據(jù)庫和數(shù)據(jù)集成工具
•Microsoft Azure--提供基于云計算的存儲、大數(shù)據(jù)分析、機器學習、數(shù)據(jù)倉庫、數(shù)據(jù)湖等等
•MongoDB - 基于相同的技術提供NoSQL數(shù)據(jù)庫和云計算服務
•Mu Sigma - 提供大數(shù)據(jù)分析和決策科學解決方案
•Oracle - 提供基于云計算和內(nèi)部部署的數(shù)據(jù)庫、數(shù)據(jù)集成、數(shù)據(jù)管理、分析等
•Palantir - 提供數(shù)據(jù)集成和數(shù)據(jù)管理解決方案
•Pivotal--提供內(nèi)存技術和多云分析平臺
•Qlik - 提供商業(yè)智能和分析軟件
•RapidMiner - 提供數(shù)據(jù)挖掘、數(shù)據(jù)科學、預測分析、機器學習解決方案
•SAP - 提供內(nèi)存數(shù)據(jù)管理、分析、人工智能和機器學習工具
•SAS - 提供分析、商業(yè)智能和數(shù)據(jù)管理解決方案
•SiSense - 提供商業(yè)智能和分析
•Splice Machine - 提供組合數(shù)據(jù)庫、數(shù)據(jù)倉庫和機器學習平臺
•Splunk - 提供日志和安全數(shù)據(jù)的分析
•Striim - 提供流式分析
•SumoLogic - 提供日志和安全數(shù)據(jù)的分析
•Tableau - 提供商業(yè)智能和大數(shù)據(jù)分析
•Talend - 提供大數(shù)據(jù)集成工具
•Tibco Jaspersoft - 提供商業(yè)智能和分析
•Teradata - 提供數(shù)據(jù)倉庫、數(shù)據(jù)湖和業(yè)務分析
版權聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權利。