1.Hadoop
Hadoop是穩定企業實力和其他一切工作的基礎。你需要利用YARN,HDFS和Hadoop中的基礎設施,存儲原始數據以及運行關鍵的大數據服務和應用程序。
2.Spark
Spark易于使用,并且支持所有重要的大數據語言(Scala,Python,Java,R)。同時,Spark還是一個巨大的生態系統,發展迅速,便于支持microbatching/batching/SQL。這是另一個不費腦筋的技術。
3.NiFi
NiFi是NSA工具,它可以用最少的編碼和一個光滑的UI,提供簡單的數據攝取、存儲和處理各種來源數據。這些數據的來源包括社交媒體,JMS,NoSQL,SQL,Rest/JSONFeeds,AMQP,SQS,FTP,Flume,ElasticSearch,S3,MongoDB,Splunk,Email,HBase,Hive,HDFS,AzureEventHub,Kafka等等。如果NiFi沒有你需要的來源或匯集,你可以為NiFi直接用Java代碼編寫自己的處理器。NiFi是另一個推薦選入工具箱中的Apache項目,是大數據工具中的瑞士軍刀。
4.ApacheHive2.1
ApacheHive是運行在Hadoop之上的永久SQL解決方案。在ApacheHive2.1最新版本中,性能和功能上的增強使Hive成功作為SQL大數據解決方案留在榜單。
5.Kafka
Kafka是大數據系統間進行異步、分布式消息傳遞的選擇,它能夠進入大多數的堆棧。從Spark到NiFi,到第三方工具,再到Java和Scala,它很好地維系了系統。Kafka需要在棧中應用。
6.Phoenix-HBase
由于很多公司都在應用HBase,也就導致了這個開源項目的數據規模極大。在HDFS支持下,NoSQL能夠很好地集成所有工具。所以,在HBase上額外構建的Phoenix成為了NoSQL首選。這增強了HBase的SQL、JDBC、OLTP和運營分析能力。
7.Zeppelin
在使用Hive,Spark,SQL,Shell,Scala,Python以及許多其他的數據挖掘和機器學習工具時,Zeppelin是一款便捷、集成性較高的notebook工具。在易于使用的同時,Zeppelin能夠以很好的方式來探索和查詢數據。而且這個工具可以支持多種環境和功能,用戶只需要經常更新圖表和映射數據即可。
8.SparklingWater
SparklingWater彌補了Spark中MachineLearning和其他工作間的空缺,提供所有可能用到的機器學習服務。
9.ApacheBeam
ApacheBeam是一個用Java編寫的統一框架,用于數據處理和管道開發。同時,它也可以支持Spark和Flink。其他的框架很快也會上線,用戶不必再去學習太多的框架。
10.StanfordCoreNLP
NaturalLanguageProcessing目前應用極廣且增長迅速,StanfordCoreNLP也在不斷地提高他們的框架性能。
時下有數不清的大數據項目,所以最好的辦法就是合并及測試不同項目版本,來確保他們在安全和管理上都能夠順暢運行。