如今全球各地的無數企業組織在處理數據集,這些數據集是如此地龐大而復雜,以至于傳統的數據處理應用軟件再也無法支持經過優化的數據分析和洞察力獲取。這是新一批大數據應用軟件旨在解決的問題,而Apache軟件基金會(ASF)最近將一批值得關注的開源大數據項目升級為Apache頂級項目。這意味著,這些項目將獲得積極的開發和強有力的社區支持。
大多數人已聽說過Apache Spark,這種大數據處理框架擁有內置模塊,可用于數據流、SQL、機器學習和圖形處理。IBM及其他公司正在往Spark項目投入數十億美元的開發資金,美國宇航局和SETI研究所在開展合作,利用Spark的機器學習能力,分析數TB的復雜的外太空無線信號,搜尋可能表明存在智能外星生命的模式。
然而,另外幾個最近被提升為頂級項目的Apache大數據項目同樣值得關注。實際上,其中一些打造的生態系統在活動和開發上可與Spark的生態系統相媲美。本文介紹了你應該知道的幾個Apache大數據項目。
下面是六個迅速崛起的項目:
Kylin
Apache最近宣布,Kylin項目這個脫胎于eBay的開源大數據項目已被提升為頂級項目。Kylin是一個開源分布式分析引擎,旨在提供一種基于Apache Hadoop的SQL接口和多維分析(OLAP),支持極其龐大的數據集。它仍廣泛用于eBay和另外幾家組織。
Apache Kylin副總裁Luke Han說:“Apache Kylin的孵化之旅已證明了開源治理在Apache軟件基金會(ASF)具有的價值,并證明了圍繞該項目打造一個開源社區和生態系統的力量。我們的社區在與世界上最龐大的本地開發者社區積極互動,完全依照Apache之道。”
作為一種基于Hadoop的OLAP解決方案,Apache Kylin旨在填補大數據探索與人類使用之間的空白,“讓分析員、最終用戶、開發人員和數據愛好者能夠對龐大數據集執行交互式分析,延遲低于1秒,”據開發人員聲稱。他們補充道:“Apache Kylin將商業智能(BI)帶回給Apache Hadoop,發掘大數據的價值。”
Lens
Apache最近還宣布,Apache Lens這個開源大數據和分析工具由Apache孵化器提升為頂級項目(TLP)。據宣布聲稱:“Apache Lens是一種統一分析平臺。它為統一視圖的分析查詢提供了一種最佳執行環境。Apache Lens旨在通過針對多個分層數據存儲系統,提供單一的數據視圖,從而消除數據分析孤島。”
“通過在數據基礎上提供一種聯機分析處理(OLAP)模型,Lens將Apach Hadoop和傳統數據倉庫無縫集成起來,好比是一個整體。它還為在系統中運行的查詢提供了查詢歷史記錄和分析統計功能,另外提供了查詢生命周期管理。”
Apache Lens的副總裁Amareshwari Sriramadasu 說:“在ASF孵化Apache Lens是個神奇的經歷。Apache Lens著眼于最終用戶,解決了大數據分析領域的一個非常關鍵的問題。它讓業務用戶、分析員、數據科學家、開發人員及其他用戶能夠輕松處理復雜的分析,不需要了解底層的數據布局。”
Ignite
Apache軟件基金會還宣布Apache Ingite成為了一個頂級項目。這個開源項目旨在構建一種內存中數據架構(in-memory data fabric)。
據Apache社區的成員聲稱:“Apache Ignite是一種高性能、集成、分布式的內存中數據架構,針對大規模數據集可實現實時計算和處理,速度比基于磁盤或閃存的傳統技術要快幾個數量級。它旨在可以輕松支持成本合理、基于行業標準的硬件上的分布式大規模并行架構中的新舊應用程序。”
Brooklyn
Apache軟件基金會宣布,Apache Brooklyn現在是個頂級項目(TLP),“這標志著該項目的社區和產品已在該基金會的精英管理流程和原則下得到了妥善治理。”Brooklyn是一種應用程序藍圖和管理平臺,用于跨多個數據中心集成服務,并集成云端的眾多軟件。
據Brooklyn宣布聲稱:“由于現代應用程序由許多組件構成,微服務架構日前受到關注,部署應用程序和已部署應用程序的日常改進成了一個越來越難的問題。Apache Brooklyn的藍圖提供了一種清晰簡潔的方式,可以在部署到公共云或私有基礎設施之前,明確應用程序、組件、配置以及組件之間的關系?;诓呗缘墓芾斫⒃谧灾饔嬎憷碚撨@個基礎上,不斷評估運行中的應用程序,并對它進行改動,讓應用程序保持順暢運行,并且針對成本和響應能力等度量指標進行優化。”
Brooklyn現用于一些知名企業組織。云服務提供商Canopy和Virtustream已開發了基于Brooklyn的產品。IBM也廣泛使用Apache Brooklyn,以便將大量的工作負載從AWS遷移到IBM Softlayer。
Apex
今年4月份,Apache軟件基金會將Apex項目提升為頂級項目。它號稱是“面向Apache Hadoop生態系統的一種大規模、高吞吐量、低延時、容錯、統一的大數據數據流和批量處理平臺。”Apex可與Apache Hadoop YARN協同運行,后者是一種適用于Hadoop集群的資源管理平臺。
Tajo
最后,Apache Tajo是需要了解的另一個新的大數據項目,這是Apache Hadoop中一個先進的開源數據倉庫系統。Apache聲稱,Tajo為Hadoop部署系統、第三方數據庫和商用商業智能工具提供了快速獲取更多信息的功能。
很顯然,雖然Apache Spark吸引了大量眼球,但它不是Apache提供的唯一引人注目的大數據工具。今年,Apache可能會將更引人注目的大數據項目提升為頂級項目,這些項目將得益于經過優化的開發資源及更多優勢。
原文標題:Rise six unsung apache big data projects