當前位置：大數據 → 業界動態 → 正文

大數據技術應用列表Top 10

責任編輯：editor005 作者：郭芮 |來源：企業網D1Net 2016-08-24 14:40:07 本文摘自：CSDN

在這個大數據爆炸的時代，各種新項目如雨后春筍一般，每天從世界各地不斷涌現出來。好消息是當下的技術都是開源可用的。下面就一起來看看這個Top10列表，應用起來吧!

大數據

1. Hadoop Hadoop是穩定企業實力和其他一切工作的基礎。你需要利用YARN ，HDFS和Hadoop中的基礎設施，存儲原始數據以及運行關鍵的大數據服務器和應用程序。

2. Spark Spark易于使用，并且支持所有重要的大數據語言(Scala，Python，Java，R)。同時，Spark還是一個巨大的生態系統，發展迅速，便于支持microbatching/batching/SQL。這是另一個不費腦筋的技術。

3. NiFi NiFi是NSA工具，它可以用最少的編碼和一個光滑的UI，提供簡單的數據攝取、存儲和處理各種來源數據。這些數據的來源包括社交媒體，JMS，NoSQL，SQL，Rest/JSON Feeds，AMQP，SQS，FTP，Flume，ElasticSearch，S3，MongoDB，Splunk，Email，HBase，Hive，HDFS，Azure Event Hub，Kafka等等。如果NiFi沒有你需要的來源或匯集，你可以為NiFi直接用Java代碼編寫自己的處理器。NiFi是另一個推薦選入工具箱中的Apache項目，是大數據工具中的瑞士軍刀。

4. Apache Hive 2.1 Apache Hive是運行在Hadoop之上的永久SQL解決方案。在Apache Hive 2.1最新版本中，性能和功能上的增強使 Hive成功作為SQL大數據解決方案留在榜單。

5. Kafka Kafka是大數據系統間進行異步、分布式消息傳遞的選擇，它能夠進入大多數的堆棧。從Spark到NiFi，到第三方工具，再到Java和Scala，它很好地維系了系統。Kafka需要在棧中應用。

6. Phoenix- HBase 由于很多公司都在應用HBase，也就導致了這個開源項目的數據規模極大。在HDFS支持下，NoSQL能夠很好地集成所有工具。所以，在HBase上額外構建的Phoenix成為了NoSQL首選。這增強了HBase的SQL、JDBC、OLTP和運營分析能力。

7. Zeppelin 在使用Hive，Spark，SQL，Shell，Scala，Python以及許多其他的數據挖掘和機器學習工具時，Zeppelin是一款便捷、集成性較高的notebook工具。在易于使用的同時，Zeppelin能夠以很好的方式來探索和查詢數據。而且這個工具可以支持多種環境和功能，用戶只需要經常更新圖表和映射數據即可。

8. Sparkling Water Sparkling Water彌補了Spark中Machine Learning和其他工作間的空缺，提供所有可能用到的機器學習服務。

9. Apache Beam Apache Beam是一個用Java編寫的統一框架，用于數據處理和管道開發。同時，它也可以支持Spark和Flink。其他的框架很快也會上線，用戶不必再去學習太多的框架。

10. Stanford CoreNLP Natural Language Processing目前應用極廣且增長迅速，Stanford CoreNLP也在不斷地提高他們的框架性能。

時下有數不清的大數據項目，所以最好的辦法就是合并及測試不同項目版本，來確保他們在安全和管理上都能夠順暢運行。

關鍵字：列表數據挖掘