Gartner 表示,目前用于數(shù)據(jù)科學(xué)的工具正在迅速發(fā)生變化。該公司在其最新的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)的報(bào)告中稱(chēng),我們正處于 “大爆炸” 中。
1 月 28 日,Gartner 發(fā)布了《數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)魔力象限》(Magic Quadrant for Data Science and Machine Learning Platforms),并表示:“數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)市場(chǎng)是健康、活躍的,眾多供應(yīng)商提供了一系列產(chǎn)品。這個(gè)市場(chǎng)正在經(jīng)歷一場(chǎng)‘大爆炸’,這場(chǎng)‘大爆炸’不僅重新定義了應(yīng)由誰(shuí)來(lái)做數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí),還重新定了數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)應(yīng)如何實(shí)現(xiàn)。”
分析師小組將數(shù)據(jù)科學(xué)平臺(tái)定義為綜合場(chǎng)所,在這里,數(shù)據(jù)科學(xué)家、民間數(shù)據(jù)科學(xué)家和開(kāi)發(fā)人員不僅可以得到構(gòu)建數(shù)據(jù)科學(xué)應(yīng)用所需的所有核心功能,還可以將它們嵌入到現(xiàn)有業(yè)務(wù)流程和管理中,并對(duì)其進(jìn)行管理和維護(hù)。
數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)必須滿(mǎn)足最低要求,并包括以下工具:
· 提取和準(zhǔn)備數(shù)據(jù);
· 以交互方式探索和可視化數(shù)據(jù);
· 工程數(shù)據(jù)特征和構(gòu)建預(yù)測(cè)模型;
· 與周?chē)A(chǔ)設(shè)施集成,測(cè)試并部署這些模型。
Gartner 認(rèn)為,整合和凝聚力是關(guān)鍵,如果應(yīng)用程序(尤其是開(kāi)源產(chǎn)品)只是簡(jiǎn)單地將各種包和庫(kù)捆綁起來(lái),那么這樣的產(chǎn)品并不能視為真正的平臺(tái)。
雖然這些核心要求為數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)奠定了基礎(chǔ),但不同的供應(yīng)商在如何實(shí)現(xiàn)這些需求上存在著很大的差異。Gartner 指出,專(zhuān)業(yè)數(shù)據(jù)科學(xué)家可能更喜歡用 Python 或 R 編寫(xiě)代碼,而其他人更喜歡數(shù)據(jù)科學(xué)筆記本的易用性,如 Jupyter。還有一些不太懂技術(shù)的人更喜歡用鼠標(biāo)在界面上點(diǎn)擊,因?yàn)閷?duì)他們來(lái)說(shuō)這樣很直觀。
領(lǐng)導(dǎo)者象限
在領(lǐng)導(dǎo)者象限中,Gartner 列入了四家供應(yīng)商,包括:KNIME、RapidMiner、TIBCO Software、SAS。
在 Gartner 的評(píng)估中,KNIME 名列前茅,這歸功于客戶(hù)的大力支持、廣泛的產(chǎn)品組合以及市場(chǎng)上 “最平衡的” 愿景之一。蘇黎世公司的產(chǎn)品系列(包括開(kāi)源 KNIME Analytics 產(chǎn)品和商業(yè) KNIME Server 產(chǎn)品)被譽(yù)為分析領(lǐng)域的 “瑞士軍刀”。對(duì)深度學(xué)習(xí)、中級(jí)用戶(hù)提供的的易用性以及與其他包集成的高級(jí)功能的支持受到了稱(chēng)贊,然而,性能和可擴(kuò)展性被視為弱點(diǎn),以及對(duì)物聯(lián)網(wǎng)的吸引力也很有限。
在領(lǐng)導(dǎo)者象限中,Rapid Miner 也是名列前茅,這得益于它在易用性和支持復(fù)雜數(shù)據(jù)科學(xué)能力之間的平衡。這款軟件支持深度學(xué)習(xí)技術(shù)并部署到 GPU,Gartner 似乎很喜歡 Rapid Miner 為機(jī)器學(xué)習(xí)部署提供更高的透明度。它與開(kāi)源工具的整合有利于數(shù)據(jù)科學(xué)家。主要關(guān)注點(diǎn)是數(shù)據(jù)準(zhǔn)備和可視化、許可和定價(jià)、模型操作。
TIBCO 從挑戰(zhàn)者象限中邁出了一大步,購(gòu)買(mǎi)了一系列分析領(lǐng)域的企業(yè),包括 Jaspersoft、Spotfire、Statistica 和 Alpine Data,并將它們整合到統(tǒng)一的平臺(tái)中。Gartner 很欣賞 TIBCO 的這一點(diǎn):提供端到端工作流程集成以及物聯(lián)網(wǎng)功能,尤其是流式分析的整合。它潛在的問(wèn)題包括性能和穩(wěn)定性、數(shù)據(jù)管理及操作方面的問(wèn)題。
SAS 是這份名單上的多年競(jìng)爭(zhēng)者。實(shí)際上它有多個(gè)經(jīng)過(guò)評(píng)估的平臺(tái)。它的 Enterprise Miner 產(chǎn)品在一系列指標(biāo)中提供了強(qiáng)大可靠的性能,而可視化數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)(Visual Data Mining and Machine Learning,VDMML)在數(shù)據(jù)準(zhǔn)備和擴(kuò)充方面得分很高。很高的客戶(hù)滿(mǎn)意度和強(qiáng)大的市場(chǎng)占有率鞏固了 SAS 作為領(lǐng)導(dǎo)者的地位。但 Gartner 也指出了 SAS 存在的一些缺點(diǎn),特別是在定價(jià)和產(chǎn)品一致性方面,SAS EM 的用戶(hù)體驗(yàn)并沒(méi)有達(dá)到公眾的預(yù)期,而且 SAS 的開(kāi)源方式對(duì) Gartner 來(lái)說(shuō)是個(gè)問(wèn)號(hào)。
挑戰(zhàn)者象限
挑戰(zhàn)者象限相當(dāng)空蕩,在這一象限中只有兩家供應(yīng)商: Alteryx 和 Dataiku。
Alteryx 通過(guò)保持其 “執(zhí)行能力”(Y 軸),但卻失去了一些 “視覺(jué)完整性”(X 軸),從而跌出了領(lǐng)導(dǎo)者象限。Gartner 在端到端管道中提及了加州 Irvin 公司的民間數(shù)據(jù)科學(xué)能力,分析師小組表示,盡管 Alteryx 有這種能力,但市場(chǎng)認(rèn)為 Alteryx 只是一種數(shù)據(jù)準(zhǔn)備工具,這一觀點(diǎn)掩蓋了它真正的價(jià)值。
Dataiku 的數(shù)據(jù)科學(xué)工作室(Data Science Studio,DSS)因其促進(jìn)不同利益相關(guān)者(從數(shù)據(jù)工程師到科學(xué)家)之間合作的方式而獲得好評(píng)。Gartner 還喜歡它為機(jī)器學(xué)習(xí)工作流程帶來(lái)的自動(dòng)化,以及模型投產(chǎn)后的管理和監(jiān)控。報(bào)告稱(chēng),Dataiku 存在的一些問(wèn)題包括可擴(kuò)展性、定價(jià)以及對(duì)流式分析和物聯(lián)網(wǎng)用例的支持。
有遠(yuǎn)見(jiàn)者象限
有遠(yuǎn)見(jiàn)者象限如此擁擠不堪,只有不到七家新的供應(yīng)商在這一象限里爭(zhēng)奪位置。
Databricks 于 2 月 5 日獲得了 2.5 億美元的風(fēng)投。Databricks 對(duì)整個(gè)分析生命周期的支持、對(duì)混合云戰(zhàn)略的支持以及支持各種用戶(hù)的能力,給 Gartner 留下了深刻的印象。用戶(hù)對(duì)基于 Spark 的產(chǎn)品給予了高度評(píng)價(jià),據(jù) Gartner 稱(chēng),文檔是 Databricks 的加分項(xiàng)之一。然而,定價(jià)、合同談判及監(jiān)視、管理和故障排除與調(diào)試的潛在問(wèn)題都是 Databricks 的潛在弱點(diǎn)。
Gartner 表示,這是 DataRobot 在有遠(yuǎn)見(jiàn)者象限中首次亮相,這要?dú)w功于它 “為增強(qiáng)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)設(shè)定了標(biāo)準(zhǔn)”,客戶(hù)因此有了強(qiáng)大的體驗(yàn),這有助于公司在已有忠實(shí)客戶(hù)群上獲得吸引力。銷(xiāo)售執(zhí)行、定價(jià)、可擴(kuò)展性問(wèn)題以及 “增強(qiáng)分析” 空間可能的商品化都是共同關(guān)注的問(wèn)題。
H2O.ai 在 2 月 5 日召開(kāi)了 H2O 世界大會(huì),由于市場(chǎng)競(jìng)爭(zhēng)激烈,以及客戶(hù)對(duì)其能力的一些擔(dān)憂(yōu),H2O.ai 從領(lǐng)導(dǎo)者象限跌落到有遠(yuǎn)見(jiàn)者象限中。但,其核心開(kāi)源機(jī)器學(xué)習(xí)組件的性能仍然是 H2O.ai 的強(qiáng)項(xiàng),它基于 GPU 的深度學(xué)習(xí)和無(wú)人駕駛?cè)斯ぶ悄艿淖詣?dòng)機(jī)器學(xué)習(xí)能力令 Gartner 印象深刻。但是,對(duì)于非開(kāi)發(fā)人員來(lái)說(shuō),學(xué)習(xí)曲線(xiàn)過(guò)于陡峭,而且缺乏管理能力,數(shù)據(jù)訪(fǎng)問(wèn)和數(shù)據(jù)準(zhǔn)備的能力也欠缺,這些都是令人擔(dān)憂(yōu)的問(wèn)題。
據(jù) Gartner 的說(shuō)法,Mathworks 在滿(mǎn)足以資產(chǎn)為中心的行業(yè)客戶(hù)的需求方面有著 “驚人的力量”(該公司在制造商和工程組織中有著多年的經(jīng)驗(yàn))。因此,MathWorks 從挑戰(zhàn)者象限向有遠(yuǎn)見(jiàn)者象限邁出了巨大的一步。它提供的 MATLAB 因其 “民間工程師” 能力而廣受贊譽(yù),而實(shí)時(shí)流媒體、深度學(xué)習(xí)和仿真的集成數(shù)據(jù)準(zhǔn)備和支持,給人們留下了深刻的印象。Dings 很難被非工程師使用,而且不支持 Google Cloud Platform,缺乏自動(dòng)機(jī)器學(xué)習(xí)能力也是其不利因素。
Microsoft 憑借基于云端的產(chǎn)品取得了不錯(cuò)的成績(jī),包括 Azure Machine Learning、Azure Data Factory、Azure HDInsight、Power BI。Microsoft 與第三方合作的方式,尤其是 Databricks 的 Spark 產(chǎn)品,對(duì)各種數(shù)據(jù)角色(包括入門(mén)級(jí)的機(jī)器學(xué)習(xí)愛(ài)好者)的支持也是一個(gè)加分項(xiàng)。機(jī)器學(xué)習(xí)過(guò)程中的自動(dòng)化是一個(gè)問(wèn)題,所有不同工具的一致性也是如此。缺乏本地化能力也限制了它的適用性。
盡管 IBM 在 2019 年仍然留在有遠(yuǎn)見(jiàn)者象限,但它已經(jīng)失去了優(yōu)勢(shì)。IBM Watson Studio 產(chǎn)品的全面性得到了 Gartner 的稱(chēng)贊,該產(chǎn)品為專(zhuān)家和民間數(shù)據(jù)科學(xué)家提供服務(wù)。將 SPSS 建模器集成到 Watson Studio 中也得到了稱(chēng)贊。但是,IBM 重塑產(chǎn)品和轉(zhuǎn)變戰(zhàn)略的頻率是 Gartner 關(guān)注的問(wèn)題,因?yàn)楂@得完整的端到端功能還需要多個(gè)產(chǎn)品的許可授權(quán)。
Google 在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)排名方面表現(xiàn)相當(dāng)不錯(cuò),很大程度上這要?dú)w功于 Google 的云端上廣泛的可用工具。它的核心數(shù)據(jù)科學(xué)平臺(tái)包括 Cloud ML Engine、Cloud AutoML、TensorFlow 和 BigQuery ML。但是 Google 也提供了獨(dú)特的硬件,包括 Tensor 處理單元(Tensor Processing Unit,TPU)、Kaggle 眾包以及一系列其他產(chǎn)品。對(duì) Google 來(lái)說(shuō),可擴(kuò)展性和速度是 Google 的優(yōu)勢(shì)。但是,這些工具之間缺乏端到端的一致性是個(gè)問(wèn)題,而且也缺乏可用性。另外,缺少本地化產(chǎn)品也是個(gè)問(wèn)題。
特定領(lǐng)域者象限
特定領(lǐng)域者象限有四家供應(yīng)商。
SAP 的 Predictive Analytics(PA)產(chǎn)品與 HANA 緊密集成,使其適合 SAP HANA 客戶(hù)。處理大型 HANA 數(shù)據(jù)集和江模型部署到 SAP 應(yīng)用的能力是強(qiáng)項(xiàng)。SAP 對(duì)統(tǒng)一機(jī)器學(xué)習(xí)架構(gòu)的愿景也是如此,它與 Leonardo 機(jī)器學(xué)習(xí)基金會(huì)相關(guān)。然而,產(chǎn)品的一致性、不斷變化的人工智能戰(zhàn)略以及客戶(hù)體驗(yàn),都是對(duì)這家德國(guó)巨頭不利的標(biāo)志。
Domino Data Lab 從有遠(yuǎn)見(jiàn)者象限降級(jí),這主要反映了其感知執(zhí)行能力的下降。Gartner 很欣賞 Domino 的產(chǎn)品戰(zhàn)略,尤其是它專(zhuān)注于協(xié)作和構(gòu)建端到端解決方案。它與開(kāi)源和專(zhuān)有產(chǎn)品的整合能力是額外的優(yōu)勢(shì),它的可擴(kuò)展性也是如此。但是,根據(jù) Gartner 的調(diào)查,Domino 側(cè)重于專(zhuān)家數(shù)據(jù)科學(xué)家,這讓民間數(shù)據(jù)科學(xué)家感到不滿(mǎn),而且它還缺乏一些數(shù)據(jù)準(zhǔn)備、自動(dòng)化和增強(qiáng)功能。
Anaconda 仍然屬于特定領(lǐng)域者類(lèi)別。Anaconda 產(chǎn)品的主要優(yōu)勢(shì)在于它能夠接觸開(kāi)源 Python 社區(qū),該社區(qū)繼續(xù)推動(dòng)數(shù)據(jù)科學(xué)的創(chuàng)新。它擴(kuò)展開(kāi)源 Python 的能力也是個(gè)優(yōu)勢(shì)。但是根據(jù) Gartner 的說(shuō)法,成功使用 Anaconda 平臺(tái)所需的專(zhuān)業(yè)知識(shí)是一個(gè)警示,Python “叢林” 的復(fù)雜性也是一個(gè)問(wèn)題。對(duì)開(kāi)源社區(qū)的依賴(lài)也使客戶(hù)在需要某些特定內(nèi)容時(shí)處于劣勢(shì)(Gartner 使用了模型操作化的示例),整體的一致性水平也是缺點(diǎn)之一。
Datawatch 是魔力象限的新成員,于 2018 年 1 月收購(gòu)了 Angoss,Angoss 在該領(lǐng)域擁有超過(guò) 20 年的經(jīng)驗(yàn)。Datawatch 產(chǎn)品的一致性和易用性得到了 Gartner 的稱(chēng)贊,其文本分析和優(yōu)化引擎組件被標(biāo)記為高于平均水平。客戶(hù)支持也是一個(gè)加分項(xiàng),但,數(shù)據(jù)準(zhǔn)備能力的缺乏,以及產(chǎn)品的總體前景和收購(gòu)帶來(lái)的不確定性拉低了 Datawatch 的成績(jī)。