現在很多廠商都說自己的產品是大數據分析軟件。如果只是根據功能去區分這些產品,的確是件難事,因為很多工具具有相似的特征和功能。此外,有些工具的差異是非常細微的。所以,關鍵區分因素可能還是要根據企業的能力以及在數據分析方面的成熟度,重點考慮如何在易用性、算法復雜性和價格之間尋找平衡。
我們將在本文對九個主流大數據分析軟件廠商的產品進行對比,即Alteryx、 IBM、KNIME.com、 Microsoft、 Oracle、 RapidMiner、SAP、 SAS 和 Teradata,其中有的廠商提供的工具不止一個。這些廠商分別代表著大數據分析市場的不同方面。我們將結合之前文章中提到的特點,對這些產品進行對比,看這些產品是如何滿足企業用戶的業務需求。
如何選擇最適合的大數據分析軟件?
分析師的專業知識和技能。有些工具的目標受眾是新手用戶,有的是專業數據分析師,有的則是針對這兩種受眾設計的。
像IBM SPSS Modeler、RapidMiner工具、Oracle Advanced Analytics、SAP Predictive Analytics自動分析版本這些產品,通常針對的人群是沒有或只有一點統計學或數據分析背景的用戶。用戶對數據進行分析、開發分析模型和設計分析工作流,基本不需要編程。每個廠商都把核心分析組件深藏在直觀的用戶界面下,引導分析師進行數據準備、分析、模型設計和驗證等分析進程,但是他們采用的方法可能有所不同,尤其是把一個獨立的產品(如RapidMiner)和一個套件產品(如Oracle產品)的一部分進行對比時,尤為不同。
像IBM SPSS Statistics、KNIME Analytics Platform、SAP Predictive Analytics專家分析模塊、微軟Revolution Analytics和Teradata Aster Discovery Platform這些工具,提供的功能復雜程度遠遠超乎專家級用戶的預期。Oracle 針對Hadoop的R高級分析法(ORAAH)是Oracle大數據軟件連接套件中的一部分,它提供了R界面,用來管理Hadoop分布式文件系統(HDFS)數據和用R語言中編寫映射(mapper)和歸納(reducer)功能。這種靈活性對于更高水平的數據科學家來說更具吸引力。
Alteryx和SAS EnterpriseMiner可以根據用戶專業知識的水平調整功能,主要適用于這兩類用戶。總體而言,在支持更高級分析技術和模型評分方面,以及包括神經網絡、關聯分析和可視化功能等更廣泛的分析功能方面,SAS Enterprise Miner和IBM的SPSS工具更加獨樹一幟。
分析多樣性。根據不同的用戶案例和應用,企業用戶可能需要支持不同類型的分析功能,使用特定類型的建模(例如回歸、聚類、分割、行為建模和決策樹)。這些功能已經能夠廣泛支持高水平、不同形式的分析建模,但是還是有一些廠商投入數十年的精力,調整不同版本的算法,增加更加高級的功能。理解哪些模型與企業面臨的問題最相關,根據產品如何最好地滿足用戶的業務需求進行產品評估,這些都非常重要。
越成熟和高端(也相對更昂貴)的工具具有的分析廣度極大。Oracle Data Miner包括了一系列知名的機器學習方法,支持聚類、預測性挖掘和文本挖掘。IBM SPSS產品的兩個版本都提供多套分析技術和模型。SAS Enterprise Miner支持許多算法和技術,包括決策樹、時間序列、神經網絡、線性和邏輯回歸、序列和網絡線路分析、購物籃分析和連接分析。
新一代(有時價格更為便宜)產品支持不同的模型,但是算法復雜程度可能較窄。Alteryx Analytics Gallery的模型庫存包含以下功能,如回歸分析、決策樹、關聯規則分析、分類和時間序列分析。KNIME包含文本挖掘、圖像挖掘和時間序列分析的方法,也從其他開源項目(如Weka、R和JFreeChart)集成機器學習算法。
分析多樣性的另一方面是編程語言和統計工具(如R)的集成,將現有庫和用戶自定義功能進行集成。事實上,與R集成可以說是越來越關鍵的區別點。Alteryx Designer、微軟Revolution Analytics、SAS Enterprise Miner、Teradata Aster Discovery Platform、Oracle ORAAH和KNIME的分析平臺,都提供R的接口,支持R的集成。
數據范圍分析。要分析的數據范圍涉及很多方面,如結構化和非結構化信息,傳統的本地數據庫和數據倉庫、基于云端的數據源,大數據平臺(如Hadoop)上的數據管理等。但是,不同產品對非傳統數據湖(在Hadoop內或其他用于提供橫向擴展的NoSQL數據管理系統內)上的數據管理提供的支持程度不一。如何選擇產品,企業必須考慮獲取和處理數據量及數據種類的特定需求。
擴展和高性能支持。是否需要可擴展的性能,這是由企業數據量和分析需求決定的。小型企業數據量較小,使用的產品可以不具備與可用資源擴展的性能特點,例如低端工具的入門級版本(如RapidMiner、 KNIME、 微軟 Revolution R Open、Alteryx Designer),可以在桌面系統上運行,不需要額外的服務器組件。
大型企業很有可能需要分析的數據集庫存更大,用戶群更廣。這就提出了兩個額外的要求——高性能和協作便利性。產品對于高性能構架的適應性表示具有可擴展性,大多數產品可以根據Hadoop的并行性進行適應性改變,或者采用其他能夠實現更快運算的方式。
所有的這些產品或多或少能夠支持Hadoop,包括IBM SPSS Modeler和SPSS Statistics、RapidMiner的商業組件Radoop(可以將Studio前端和服務器分析引擎連接到存儲在Hadoop上的數據)、Oracle Big Data Discovery 和ORAAH工具、KNIME的Big Data Extension 和Cluster Execution插件。Teradata Aster Discovery Platform通過Teradata的MPP構架解決高性能需求。SAP Predictive Analytics的專家分析版本能夠執行內存數據挖掘,高效處理大容量數據分析。微軟R Enterprise則利用Revolution Analytics的ScaleR模塊解決高性能需求,這是一個支持平行化的大數據分析算法的綜合庫。采用SAS Enterprise Miner的評分算法也能夠在Hadoop環境內部署和執行。
協作。企業規模越大,越有可能需要跨部門、在諸多分析師之間分享分析、模型和應用。企業如果有很多分析師分布在各部門,對結果如何進行解釋和分析,可能會需要增加更多的共享模型和協作的方法。IBM的SPSS Modeler Gold版本提供了協作功能,RapidMiner的Server產品支持共享和協作。Alteryx Analytics Gallery提供的機制能夠與外部機構成員分享云端的高級分析應用。KNIME提供商業擴展,支持團隊協作。SAS Enterprise Miner客戶服務器構架能夠通過共享模型和其他工作產品,讓業務用戶和數據分析師增強協同合作。
廠商規模和產品集成。我們可以根據廠商規模對產品進行比較。對于我們通常所說的超級大型廠商而言,大數據分析工具僅僅是眾多產品工具中的一套產品而已。如果你所在的企業規模很大,通常需要和廠商談整套產品工具在整個企業范圍的企業級許可,那么可以選擇像IBM、SAS、SAP或者Oracle這種超級大型廠商。
大型廠商的大數據分析工具只是更大的工具生態系統中的一部分。可以假定,來自同一個超級大型廠商的產品至少已集成的,并且旨在一起使用。此外,有些人更喜歡與大型廠商打交道,是因為覺得大企業的顧客服務更加穩定可靠。另一方面,這樣的大數據分析工具可能只可以作為更大軟件許可協議的一部分才能夠購買。
規模小點的廠商,如KNIME、Alteryx和RapidMiner,收入主要來自許可授權和支持少量大數據分析產品。小型廠商可能可以讓你更緊密地與他們的產品管理和創新團隊進行接觸,你可能可以影響產品路線圖或改進功能的發展方向。在價格和許可協議所包括的特性方面,小型廠商可能更加靈活。但是,與小型廠商合作的風險也需要注意,如穩定性、用于支持的可用資源和企業可能被收購的可能性,這些都會影響客戶關系。
許可證書和維護預算。幾乎所有廠商的產品都分不同的版本,購買費用和整個運營成本各不相同。IBM、Oracle、RapidMiner、Teradata和微軟的產品根據不同級別劃分版本,許可證書費用與特性、功能、對分析數據的量或者產品可使用的節點數的限制成正比。KNIME和RapidMiner提供免費或開源版本,對技術支持收費或者對企業級應用版本進行收費。相對而言,KNIME、RappidMiner和Alteryx對數量少的用戶收取的許可費用較低。你如果考慮SAS和SAP的產品,需要直接找他們詢價。
大數據分析軟件的市場可能讓人找不到北,但是我們希望,本系列采購指南文章能夠幫助你更好地理解大數據分析軟件能夠帶給企業什么好處,幫助你更好地區分主流大數據分析產品和工具。