本文介紹的這些開源工具是大數據處理、商業智能、機器學習和預測分析等領域的佼佼者。
對于許多大企業來說,開源大數據分析已經成為日常業務中一個必不可少的組成部分。據New Vantage Partners公司對《財富》1000強公司的高層主管開展的調查顯示,如今62.5%的企業在生產環境中至少運行一種大數據工具或應用軟件。這比2013年給出同樣回復的企業數量高出近一倍,只有5.4%的受訪企業沒有大數據計劃。
說到大數據分析,開源軟件是常態,而不是異數。許多企業使用的一些領先工具由Apache基金會管理,許多商業工具至少一部分基于這些開源解決方案。
我們在本文中介紹了市面上12款頂尖的開源數據分析解決方案,其中一些為大數據分析提供了全面的端到端平臺,另一些要與其他技術結合起來。它們都適合大企業使用,都是市面上領先的數據分析工具。
1. Hadoop
談到開源數據分析技術,就不可能不提到Hadoop。Apache基金會的這個項目已經幾乎成為大數據的同義詞,它讓企業能夠大規模分布式處理極其龐大的數據集。TDWI和SAS聯合開展的一項調查發現,近60%的企業預計在2016年年底之前會在生產環境中擁有Hadoop集群。
然而值得一提的是,Hadoop本身無法實現數據分析。它通常是從大數據獲取洞察力的整個更龐大解決方案的一部分。
2. Spark
Spark也是Apache旗下的一個項目,它承諾可以迅速處理大數據。實際上,它聲稱“在內存中運行程序的速度比Hadoop MapReduce快100倍,在磁盤上運行程度的速度快10倍。”由于這種出色性能,它常常用于分析流式數據或用于需要交互式分析功能的應用軟件中。許多公司經常把它與Hadoop或Mesos一起使用,不過它也能獨立運行。最近,它的人氣得到了急劇提升,Syncsort在2016年開展的一項調查發現,受訪的企業大數據工作人員中近70%對Spark有興趣。
3. Talend
不像前面兩個項目,Talend由一家營利公司管理,而不是由基金會管理。因而,提供收費支付服務。Talend既提供免費產品,又提供收費產品。它免費的開源解決方案名為Talend Open Studio,下載量已超過了200萬人次。
市場研究公司Gartner最近將Talend評為數據集成領域的“領導者”。這家公司聲稱,相比與之競爭的解決方案,它幫助企業分析大數據的速度快五倍,而成本卻只有五分之一。
4. Jaspersoft
與Talend一樣,Jaspersoft也有多個版本,有的版本免費,有的版本收費。社區版是免費、開源的,而Reporting版、AWS版、專業版和企業版需要收費,不過隨帶支持服務。
Jaspersoft是一款開源商業智能工具,旨在讓企業用戶可以借助自助服務,滿足自己的要求。該公司聲稱,它的技術支持130000多款應用軟件,提供嵌入式商業智能功能。
5. Pentaho
Pentaho自詡為“全面的數據集成和商業智能平臺。”該公司主要大力推銷它的商業版軟件,該軟件基于開源社區版。許多公司將它與Hadoop和Spark之類的工具一起使用,以便能夠報告和顯示大數據。該軟件聲稱擁有一大批的知名客戶,包括英國電信(BT)、卡特皮勒、納斯達克、美國國土安全部、美國國家海洋和大氣局(NOAA)、《紐約時報》、EMC及其他許多企業組織。
6. RapidMiner
RapidMiner聲稱是“頭號開源數據科學平臺”,Gartner將它評為高級分析魔力象限報告中的領導者。它能夠實現自助式預測分析,承諾有望提升速度飛快的性能。用戶包括寶馬、漢莎航空、達美樂比薩公司、索尼、福特、Salesforce、國際特赦組織和通用電氣公司。整個RadiMiner平臺包括三個獨立的組件:RapidMiner Studio、RapidMiner Server和RapidMiner Radoop。這三個組件都采用開源許可證或商業許可證,商業版價格取決于用戶數量。
7. Storm
Apache Storm被雅虎、推特、Spotify、Yelp、Flipboard和Groupon之類的公司所使用,它是一種實時大數據處理引擎。它的官方網站解釋:“Storm讓用戶很容易可靠地處理無限制的數據流,它在實時處理方面的功能好比Hadoop在批處理方面的功能。”客戶可以將它與任何數據庫或任何編程語言一起使用。它具有可擴展、容錯、易于部分使用的優點。然而用戶要注意的是,Storm還沒有進入到1.0版本這個階段。
8. H2O
H2O被60000多個數據科學家和7000多家企業組織所使用,聲稱是“世界上領先的開源機器學習平臺。”由于它的內存技術,它提供了極其出色的性能。它還與Hadoop和Spark之類的其他許多開源數據分析工具整合起來,支持所有主要的流行數據庫,提供收費的支持服務。
除了標準版的H2O外,該公司還提供Sparkling Water,這個版本整合了Spark和Steam,后者是一種端到端人工智能應用引擎。
9. Lumify
Lumify由一家名為Altamira 科技的公司開發,自稱是“開源大數據分析和可視化平臺。”它讓用戶易于創建二維或三維圖形,可顯示實體之間的關系,或在地圖上覆蓋數據。對于有興趣深入了解它的工作原理的那些人來說,官方網站提供了幾個視頻,顯示了Lumify的實際運行,上面還有一個演示網站,讓用戶可以上傳自己的數據,并試用軟件。
10. Drill
Apache Drill讓用戶得以使用SQL查詢用于非關系型數據存儲系統。它支持一系列NoSQL和基于云的數據存儲系統,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S3、Azure Blob Storage、谷歌云存儲和Swift。它還讓用戶可以使用單一查詢,即可搜索用不同技術存儲起來的多個數據集。此外,它支持許多流行的商業智能工具。
11. MongoDB
作為最知名的NoSQL數據庫之一,MongoDB是一種開源非關系型數據存儲解決方案。客戶包括大都會人壽(MetLife)、芝加哥市、Expedia、谷歌、氣象頻道、BuzzFeed和Facebook。除了免費開源版外,該公司還提供一款收費的企業版和云托管的版本MongoDB Atlas。知名市場研究機構弗雷斯特研究公司將MongoDB評為大數據NoSQL領域的“領導者”。
12. SpagoBI
SpagoBI是一款開源商業智能和大數據分析平臺。該軟件完全免費,但還提供收費的用戶支持、維護、咨詢和培訓等服務。它包括了用于報告、多維分析(OLAP)、圖表、位置情報、數據挖掘、ETL(抽取轉換和加載)及更多其他方面的工具。它還與流行的內存處理引擎整合起來,能夠實現實時處理。