一. Summary
大數據存儲與分析市場風云變換,全球行業對于大數據分析與處理的需求加速增長,無論是數據采集、數據分析及IT基礎支撐都需要強有力的技術功底。各大數據廠商也紛紛提出自己的解決方案,但不同的解決方案有相應的適用場景,本文基于Gartner 2016年發布的魔力象限對全球大數據管理與分析行業的市場現狀進行闡述,可對企業大數據解決方案選型提供最具前沿的參考價值。
二. 什么是Gartner魔力象限
Gartner魔力象限描述了Gartner公司依據標準對市場內的廠商所進行的分析。Gartner公司并不對在魔力象限中描述的任何廠商、產品或服務出具官方認可,也不建議技術用戶只選擇那些位于“領導者”象限里的廠商。魔力象限僅用作一種研究工具,并不意味著是行動的具體指導。Gartner公司對該項研究不承擔任何明示或默示的擔保,包括適銷性或適用于某一特定用途的任何擔保。
魔力象限的四個象限依次分別為領導者、挑戰者、有遠見者和特定領域者(Niche Players):
特定領域者:公司發展前景的完備性和執行能力方面都得低分的公司也許占有一定的市場份額,但還是比不上規模大一些的廠商。這些公司通常關注功能性或其他特定領域,要么就是新成立的公司。
有遠見者:了解市場動態并且有潛力進行創新,但也許尚缺乏執行這些的能力。雖然這是早期市場中的企業標準,但是在較為成熟的市場中,有遠見者則常常要么是設法實現的小企業,要么是不想按常理出牌的大廠商。
挑戰者:執行能力高,但缺少強勁的發展勢頭。挑戰者往往是大型一點的成熟廠商并且不愿打破其當前的發展計劃。隨著公司的發展他們完全有實力成為行業領袖。
領導者:公司發展前景的完備性和執行能力方面均得高分的行業領袖往往是大型的成熟公司、擁有大量客戶群并且在市場上知名度極高。行業領袖在市場中有巨大的拉力,甚至有實力影響市場的整體發展方向。其提供的產品應包含額外的功能,且能提高市場對這些功能的重要性的認識,從而顯示出對市場的影響能力。
三. 市場需求描述
目前的大數據分析市場,企業需要一套能夠管理和處理各種類型、不同格式、不同數據來源的數據管理與分析解決方案。除了企業信息化的數據之外,可能還包括一定的監測與交互數據,如物聯網傳感器的數據等。隨著數據量和數據種類的增加,經常面臨對企業已存在的數據倉庫系統及架構進行改造。本文提及的數據管理與分析解決方案(The Data Warehouse and Data Management Solutions for Analytics, DMSAs)主要包括:
1.支持不同文件管理系統(XML,TEXT)和異構數據庫的數據整合
2.能夠進行結構化的數據查詢與處理
3.支持不同的數據訪問接口
四. Gartner定義的四類數據倉庫
數據倉庫不僅是一個單一的數據庫,它是一整套的數據管理系統,包含很多的輔助工具、一些設計理念和管理方法。
1.傳統數據倉庫:一般指存儲處理各種結構化歷史數據的數據管理系統,不同數據源通過批處理的方式加載到倉庫。這類數據倉庫采用集中化的架構,處理的數據量能力有限,水平擴展能力較差。
2.操作型數據倉庫:操作型數據倉庫把對數據的實時訪問和操作進行了提升。數據不再是T+1的模式,而是T+0或準實時的模式,也就是說當天,甚至是幾分幾秒,都可以訪問到數據。
3.邏輯數據倉庫:邏輯數據倉庫的數據不再局限于結構化數據,還包括非結構化數據,如視頻、音頻、文檔等格式。邏輯上是一個大的數據倉庫,底層可以包括各類數據源,進行關聯處理。
4.上下文無關的數據倉庫:通過利用新的機器學習的統計方法,不僅做傳統SQL的統計,還能夠從數據關聯上面發現規律、關聯模式、時序上的特征。通過對它進行一些預測分析,能夠發現統計學意義上的因果關系。
五. Gartner魔力象限詳述
Source: Gartner (February 2016)
橫軸:前瞻性(Completeness of Vision),包括廠商或供應商提供的產品底層技術基礎的能力、市場領導能力、創新能力和外部投資等等。
縱軸:執行能力(Ability to Execute),包括產品的使用難度、市場服務的完善程度和技術支持能力、管理團隊的經驗和能力等。
下面結合魔力象限對各解決方案廠商進行概要性的闡述:
1. 1010data
1010data是一個致力于管理服務的數據倉庫提供商。它的DBMS和BI主要面向金融服務、零售、電信、政府和健康領域。
1)1010data近幾年一直處于快速增長階段,目前已經超過750家客戶。當前集中在基于云的解決方案方面。
2)其交互式數據分析的簡單易用、查詢的高效性、數據加載的性能受到一致好評。
3)1010data目前僅局限于邏輯數據倉庫(LDW)。主要關注于基于1010data云的數據管理與分析支撐;
4)1010data仍然主要在美國。近期開放了德國數據中心,用于歐洲運營。
2. Actian
Actian提供了基于Actian分析平臺的數據倉庫和數據管理解決方案。該平臺包括3個產品:Matrix,MPP(massively paralell processing)DBMS引擎;Vortex,基于Hadoop的分析平臺,Vector,SMP(symmetric multiprocessing) DBMS引擎。
1)Actian提供了集成的數據倉庫解決方案,號稱可以支持4類數據倉庫功能。基于Vortex,可以提供集成的數據分析能力。
2)市場反映,Actian提供的邏輯數據倉庫和上下文無關數據倉庫功能可以處理多種數據格式。總體上,Actian的查詢性能和分析能力值得肯定。
3)Actian Matrix是Amazon Redshitf的基礎數據庫。但matrix和redshitf在技術和架構演進戰略上并不一致。Actian用戶無法使用兩種技術進行基于混合云和本地化的部署,但Actian可以將Matrix部署于第三方云服務提供商進行服務提供,如微軟的Azure和Rackspace。這樣,用戶可以使用部署于云上的Matrix進行系統部署和測試。
4)目前在市場上,Actian的使用度并不廣,但Actian聲稱其增長速度已經超過了市場平均水平。
3. Amazon Web Services
Amazon Web Services(AWS)提供了Amazon Redshift(基于云的數據倉庫服務),AWS Kinesis(流數據處理),Amazon Simple Storage Services S3(簡單存儲服務),Amazon Elastic MapReduce EMR 幾種服務。
1)AWS被認為是云數據倉庫平臺服務提供商的領導者。它基于云平臺的可擴展性、技術的靈活性進行快速的應用。
2)AWS聯合多種數據管理解決方案,能夠提供不同類型的應用。例如,使用S3進行數據湖的支撐建設,利用Redshift進行數據分析。
3)大量用戶表示,他們打算追加更多的投資到Redshift,表明了其對此產品的滿意度。
4)所有主流的服務提供-IBM,Microsoft, Oracle,SAP和Teradata,現在都積極地通過數據倉庫即服務和AWS在云計算領導進行競爭。對于在價格和產品功能上持續競爭,盡管用戶對于云產品可以有了更多的選擇,但用戶需要有一定的產品辨識度。
4. Cloudera
Cloudera提供基于Apache Hadoop生態系統的數據存儲和處理平臺。同時也提供一些用于系統設計、部署、維護、管理的專有系統和數據管理工具。
1)Cloudera不同于其它Hadoop系統提供商,其專注于某些能力的貢獻,比如持續跟進Hadoop開源項目,持續提升Cloudera導航器(提供元數據管理、血統管理和審計)。
2)Cloudera將其解決方案作為傳統數據倉庫的有力補充,并且充分利用了其與傳統DBMS提供商的聯合,如Oracle。
3)Cloudera持續在全球上進行擴張,如在歐洲、亞洲、拉丁美洲的用戶數增長很快。同時,在其全球生態系統上的合作伙伴也一直在增強。
4)盡管Cloudera表現出了對于云部署的興趣,但Cloudera僅僅把云平臺作為IaaS使用,并沒有提供可伸縮的、彈性的、可管理的服務支持。Cloudera通過提升Cloudera Director來滿足對于云平臺部署的需求。
5)Hadoop的模塊化設計,允許新的模塊能夠輕松的加入系統,Cloudera持續擴展它的組件,來滿足新的業務需求。
5. Exasol
Exasol提供基于內存的列存儲DBMS,它提供免費的單節點安裝版本,集群部署解決方案和Dell Appliance的集成。 它同時也提供基于EXACloud云平臺之上的全管理解決方案,以及基于第三方云服務提供商的解決方案,如AWS, 微軟的Azure和Rackspace。
1)Exasol的市場表現在持續增長,目前已經超過100家客戶。盡管它的用戶大部分在歐洲,Exasol正在美國尋求新的突破。
2)Exasol基于現有的并行分布系統,引入虛擬模式開發(對于外部數據源)和腳本語言容器。這種結合使得用戶或合作方可以使用任何語言(R,Scala,Java,Lua,Python)在Exasol上開發、部署、運行他們的模型。
3)Exasol缺乏市場遠見。這種情況在2016年很可能依然如此,因為公司主要選擇通過合作方進行歐洲以外市場的擴展。盡管近期在美國的取得了成功,但Exasol于2015年進行了相應比例的縮減。
4)Exasol客戶報告Exasol缺乏部署和生命周期管理能力,例如集群的縮減和SQL客戶端的功能。另外,Exasol提供的相關文檔不夠充分,并且缺乏一些市場策略。
6. Hitachi
Hitachi利用Hitachi Advanced Data Binder(HADB)于2014年進入數據倉庫和DMSA市場。 主要提供三方面服務:Desktop, “entry” 模型和”standard” 模型. 它的售價依賴于期望的存儲容量、CPU處理器的核數和內存總量。
1)日立的路標瞄準解決日本市場的需求。HADB是一個致力于工業界的高速、傳統數據分析解決方案,主要針對結構化數據分析(包括傳感器數據)。
2)日立客戶會考慮將大量交易數據、傳感器數據和地圖數據轉成結構化數據,通過HADB進行數據分析。特殊地,HADB用戶利用它的out-of-order執行特性,可以繞過傳統的同步操作來增加處理器I/O的并發度。
3)日立客戶極度責怪日立提供的服務支撐。他們報告說明,通過使用HADB極大提升了自己操作的能力。
4)Hitachi在日本市場提供基礎的數據倉庫解析方案,目前比較成熟高效。在最近的發展策略下,Hitachi正在北美尋求市場。
5)Hitachi在2015年在市場方面增長有限,導致了僅有一小部分的產品增長。因此,Hitachi在魔力象限中處于不利位置。
6)Hitachi的HADB定位于處理大量結構化數據的高性能分析,并沒有解決邏輯數據倉庫(LDW)的問題,也就是無法處理非結構化數據。然后,Hitachi的Pentaho acquistion作為LDW的替代品已經出現于市場之上。
7. Hortonworks
Hortonworks提供基于Linux和Windows的Hortonworks數據平臺(HDP)。同時也提供基于不同云服務提供商且運行于Linux之上的Hortonworks數據流工具HDF。Hortonworks與微軟(具體是它的Azure HDInsight服務)合作,進行遠端混合云的部署。基于此,Hortonworks提供免費的桌面沙箱HDP版本。
1)在2014年12月,Hortonworks成為第一個Hadoop發行版提供商進入公眾視野,證明了Hadoop對于企業的活力和流行度。Hortonworks公開其自從上市后新客戶有顯著增加。
2)Hortonworks由于持續合作伙伴的增加,包括傳統的數據庫廠商 ,越來越受到市場的認可。Hortonworks避免與其直接競爭,這也正符合其對hadoop發行版擴大數據倉庫市場的期望和作用。
3)Hortonwork通過與大數據生態的深度合作與集成,保持自身hadoop的特性,這無疑將是一個巨大的挑戰。因為其它大數據服務商如微軟、Teradata也在同其它Hadoop服務商進行合作。
8. HPE
Hewlett Packard Enterprise’s(HPE’s)致力于數據管理與分析解決方案。HPE的Vertica,是一個列式存儲的分析型DBMS。同時Vertica也支持基于云計算的部署,并且提供與Hadoop的集成和基于Hadoop的SQL查詢。
1)用戶可能使用Vertica進行各種use case和各類數據的分析。
2)HPE Vertica能夠滿足主要的市場需求和趨勢,如LWD,基于庫內運算等。
3)HPE滿足了一定的用戶需求,但Gartner的客戶調查顯示其客戶群體量不大。這表明HPE在增加其市場擴展方面面臨著不小挑戰。
4)用戶提出HPE的DBMS在管理上的問題與挑戰,盡管它在逐漸的提升。
5)目前HPE Vertica在中國的銷售遇到不小的困難,主要原因是其按存儲容量進行報價。
9. IBM
IBM提供單機的DBMS解決方案、數據倉庫專用設備、z/OS解決方案和Hadoop發行版BigInsights。其專用設備包括IBM PureData分析系統,IBM PureData運營分析系統、IBM DB2分析加速器和IBM智能分析系統。IBM提供基于分析加速器Blu Acceleration的IBM DB2,以及數據倉庫管理服務。IBM在2014年10月發布了dashDB(基于IBM旗艦產品DB2關系型數據庫的BLU Acceleration內存計算技術。)
1)IBM推出dashDB和DataWorks的云服務。用戶可以在一個彈性的環境中通過此服務進行快速的數據分析模型部署。可以解決快速增長的數據分析需求。
2)2015年,IBM提出了IBM Fluid Query,可以連接關系型和Nosql數據庫。IBM還致力于Apache Spark開源項目,將為IBM在流式計算、數據挖掘、高級分析帶來產品的競爭力。
3)目前dashDB的使用范圍不確定,盡管IBM宣稱已經大范圍使用,但Gartner僅接到小部分的用戶使用報告。
10. Infobright
Infobright是一家全球公司,提供基于Mysql-postgre sql API的列存儲、高壓縮比的DBMS。主要銷售商業版本的Infobright。目前有試用版可下載。
1)用戶對于Infobright的處理速度十分滿意。主要歸功于Infobright的處理方式、壓縮比、數據載入速率和對索引的依賴。
2)2014年,Infobright經歷了一次重組,導致了現金流轉的變化。其中就包括減少對于產品的支持。
3)物聯網數據為Infobright提供了機會。已經計劃在這方面進行技術的變革與創新。
4)根據用戶反映,一些Mysql數據類型Infobright軟件不支持。
11. Kognitio
Kognitio提供了Kognitio分析平臺,它即是一個數據倉庫DBMS,也是一個專用設備。Kognitio提供公有云或私有云的云解決方案,也在AWS上提供公有云服務。
1)一些Kognitio的大客戶在單一的數據管理分析環境(LWD)下運行傳統分析解決方案,如數據集市、數據倉庫和hadoop。
2)為了和Hadoop節點融合共存,與Apache Hadoop YARN和Kerberos集成,實現JSON的解析,Kognitio很可能將其分布式分析作為一個通用的處理引擎。
3)Kognitio客戶發現Kognitio與很多第三方BI和數據集成產品無法集成起來。
4)Kognitio用戶也發現了數據庫管理的相關問題,如內存管理等。另外,他們認為管理UI需要進行提升。
12. MapR技術
MapR提供Hahoop發行版,此發行版對Hadoop的性能、存儲進行優化,具有高可用性,且具備一定的管理工具。
1)MapR擴大了其產品范疇,開始和眾多合作伙伴開展融合,共同提供解決方案,如AWS, Google,HPE,IBM, Microsoft, SAP, SAS和Teradata。
2)客戶稱贊MapR在高可用性、集群管理等性能。另外,MapR繼續提升在授權、審計等方面的能力。
3)MapR聚焦其大范圍的use case。支持流式處理、分析型用例。
4)盡管MapR在市場上的努力,但它仍然缺乏市場的可見性。
5)MapR的用戶表示其升級和安裝是一個很大的挑戰。為了解決這個問題,MapR現在已經提升了GUI的安裝界面,playbooks,專業升級包等。
13. MarkLogic
MarkLogic提供NoSQL數據庫,可使用XML,JSON,Text,RDF和二進制存儲,提供元數據驅動的語義實體管理層。MarkLogic還包括對索引、分層存儲、HDFS/Amazon S3、移動復制、全文本查詢、地理空間能力、SQL/ODBC和支持。
1)MarkLogic過去三年在收入和用戶群上有了快速的增長。它的客戶源自全球,主要包括北美、中國、新加坡、南韓、法國、東歐等地。
2)MarkLogic用戶使用它的產品多用于半結構化數據集(也含結構化)。
3)MarkLogic是一個小的服務提供商,主打個性化的服務能力。但目前能夠在整個大的市場下開展競爭 。
4)盡管同期相比,Marklogic在提升,但主要還是依靠口碑進行平臺的宣傳與擴展。
14. MemSQL
MemSQL為事務型用例提供基于內存的DBMS,結合基于磁盤的列存儲提供分析服務。
1)MemSQL的策略主要聚焦提供低時延的事務和分析用例能力。目前集成Apache Spark提供流式、事務和分析能力。
2)MemSQL于2013年進入DBMS市場,解決運營用例。現在它進入數據倉庫和DMSA市場,主要致力于運營分析用例。
3)用戶表示MemSQL的定價是一個問題,并且MemSQL沒有提供免費的社區版本。
4)MemSQL的定位在于提供混合的交易、分析、處理(HATP)的用例,但目前僅提供初級的操作型DBMS。
15. Microsoft
微軟在市場上有多種數據分析產品,SQL Server,微軟分析平臺系統(整合了SQL Server并行數據倉庫和HDInsight),基于云的Azure SQL數據倉庫和基于Hadoop的Azure HDInsight。
1)微軟基于云的解決方案包括一個融合Azure SQL數據倉庫和數據分析環境,目前已經吸引了大量客戶關注。
2)微軟Azure聯合查詢、Azure機器學習、Azure數據工廠為微軟用戶提供了自我服務的數據管理分析環境。另外,基于微軟的Azure數據湖商店、Azure數據湖分析,微軟的用戶社區由其自己品牌的公民科學家支持。
3)用戶提出一些偶然的后端和架構問題。同時也指出微軟災難性的恢復功能、SMP和MPP的整合、平臺綁定展現管理以及部署問題。
4)微軟對于分析型數據管理解決方案的定位并不明確,它需要明確如何同時支持個人用戶和企業級用戶。
16. MongoDB
MongoDB提供一個開源的文件DBMS。其支持自動分區、容錯、二級索引、地理空間數據及和文檔數據檢索、以及相應的管理工具。他支持的數據結構非常松散,是類似json的bson格式,因此可以存儲比較復雜的數據類型。
1)MongoDB由于對操作型數據強大的處理能力而被人所知。它的軟件通常采用嵌入式的方式進行使用。
2)用戶經常強調MongoDB在操作型數據分析上的能力,以及MongoDB所具有的管理接口。
3)盡管MongoDB滿足用戶操作型分析需求上的功能,但用戶仍然很難將其看作是一個企業級的分析平臺。
4)用戶也暴露出MongoDB的一些問題,如讀寫鎖管理、授權、復本以及網絡存儲的性能等。
17. Oracle
Oracle提供Oracle 數據庫12c,Oracle Exadata數據庫設備,Oracle大數據設備,Oracle數據庫Exadata云服務,Oracle大數據管理系統,Oracle大數據SQL以及Oracle大數據連接器等產品。
1)Oracle用戶表示將軟件硬件整合在一套解決方案有利于部署與管理。其用戶滿足Oracle系統的性能與穩定性。在2015年,Oracle報告顯示其在北美、EMEA、以及亞太地區,大量企業采用Oracle大數據設備。
2)目前Oracle數據庫的版本包括基于JSON數據之上的SQL能力、基于內存和列式的數據存儲。
3)Oracle大數據機是一款集成設計的系統,旨在簡化大數據項目的實施與管理。
4)Oracle數據集成Hadoop應用適配器通過Oracle數據集成器易于使用的界面,自動生成Hadoop MapReduce代碼,簡化了Hadoop應用與Oracle數據庫的數據集成。
5)Oracle Hadoop裝載器使客戶能夠利用Hadoop MapReduce處理功能建立優化的數據集,從而在Oracle數據庫11g中進行高效率加載和分析。
6)Oracle Direct Connector可通過SQL語言從Oracle數據庫直接訪問Hadoop分布式文件系統上的數據。
18. Pivotal
Pivotal是一家由EMC、VMware和GE聯合成立的公司。它提供開源的數據管理解決方案。它的產品主要包括Pivotal GreenPlum和Pivotal HDB。它也通過Pivotal實驗室對外提供服務。另外,Pivotal通過它的大數據套件整合提供產品服務。
能力:
1)首先Pivotal大數據套件中的所有組件都是業界最領先的大數據產品,同時擁有大量頂級的客戶案例。
2)Greenplum的開放架構受到了許多企業的青睞,除電信、金融等大企業之外,Greenplum在互聯網公司也擁有廣泛的應用。
3)Pivotal HD是最強的Hadoop發行版,它提供了企業級的支持與版本延續性管理。更為重要的是,Pivotal大數據套件中的所有產品都實現了無縫的集成與聯動,全分布式架構涵蓋了大數據處理的各個領域
4)Pivotal客戶報告了其一系列優勢,包括速度、分布式處理能力、穩定性和高可用性。
19. SAP
SAP提供SAP IQ和SAP Hana。SAP IQ,第一個列式存儲DBMS,支持單機。SAP Hana是一個基于內存的列式存儲系統,支持操作型和分析型的用例。SAP也提供一體機,基于云的解決方案(SAP Hana云平臺)。另外,還提供基于Hana之上 的SAP商業數據倉庫。
1)SAP在數據倉庫方面持續取得成功。采用基于Hana的SAP商業數據倉庫增加了不同的客戶群。
2)SAP持續提升其在云部署方面的伸縮性和災難恢復的高可用性。
3)SAP通過擴展SAP Hana Vora和其它DBMS與Hadoop的關系,使其作為生態系統的一部分,持續改變SAP Hana的市場定位
4)盡管SAP上下的努力,SAP Hana目前還仍然主要是被已有的SAP用戶采用。這也表現出SAP擴展其分析型數據管理市場的挑戰。
5)SAP用戶提出SAP Hana存在的一些問題,如功能性缺失、穩定性問題。
20. Teradata
Teradata的產品包括DBMS解決方案、數據倉庫設備和云數據倉庫解決方案。Teradata同時提供傳統數據倉庫和邏輯數據倉庫(LDW),也就是Teradata聲稱的統一數據架構(UDA)。它也提供特定硬件和基于特定分析數據庫軟件的融合服務,比如基于各類設備的Teradata數據倉庫一體機。
1)Teradata持續開展大數據產品以滿足變化的市場需求,如Teradata云,基于AWS的Teradata分析和基于Hadoop的Aster分析。這些新的方法為客戶提供了一定的伸縮性,也為獨立采用Teradata產品提供了機會。
2)Teradata開始處理流式數據的處理需求。在IoT時代,將會帶來一定的機會。這也是一個應對市場需求與趨勢的重要轉變。
3)客戶對于Teradata軟件稱贊其性能、穩定性和對工作負荷的管理。
21. Transwarp(星環科技)
Transwarp提供Transwarp數據集中器(TDH),它是一個Hadoop發行版的套件,在此之上補充了SQL引擎、機器學習算法、NoSQL查詢引擎和流式處理功能。
1)盡管Transwarp是一個年輕的大數據服務提供商,其在中國市場取得了不斷的提升。在18個月內獲得了200個客戶。
2)Transwarp擁有獨特的數據能力,包括基于Apache Spark的Inceptor SQL組件,融合Oracle SQL和PL/SQL提供create, read, update, delete和ACID操作。這些組件功能被用戶極度贊揚。
3)客戶表示,其不僅對Transwarp的產品非常滿意,對公司提供的培訓和支撐也一樣滿意。
4)到目前為止,Transwarp僅在中國。Transwarp到目前還沒有提供基于云計算的解決方案,盡管其聲稱云已經在其路線圖中。
六. 小結:
本文主要結合Gartner魔力象限對目前全球主流數據管理與分析廠家的產品功能、市場定位進行了闡述。相關內容可作為企業大數據架構及產品選型的參考。另外,本文不涉及商業智能及數據挖掘廠商,因此,像SAS,Tableau等廠家并不在討論范圍之列。
本文為中國聯通網研院網優網管部IT技術研究團隊獨家提供,作者:蘇飛