精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

大數據主流工具,你知道幾個?

責任編輯:editor004 |來源:企業網D1Net  2016-11-18 11:00:12 本文摘自:大數據觀察

業內有這樣一種說法,SQL雖然在大數據分析領域久經考驗,但是無奈長江后浪推前浪,和炙手可熱的Hadoop相比,SQL已經過時了。這個說法有點言過其實,現在很多的項目都是將Hadoop作為數據存儲,然后利用SQL進行前端查詢。這說明Hadoop需要一種高級查詢語言的支持。 Hadoop MapReduce雖然能夠進行數據分析,但是太復雜了。于是,開發人員開發出了類似SQL的Pig和Hive。

大數據時代,我們有很多的查詢工具可以選擇。雖然SQL占據著絕對優勢,但是隨著大數據的持續升溫,也給了Apache Pig和Hive很大的發揮空間。工欲善其事必先利其器,如果選擇了合適的平臺和語言,會讓數據的提取,處理和分析達到事半功倍的效果。未來,數據會越來越大,數據分析必須要更易操作。處理速度快和操作簡單必定成為大數據分析的主流趨勢。

Apache Pig,Apache Hive和SQL是當今主流的大數據工具。它們各有優勢,下面我們就先來簡單介紹Apache Pig、Apache Hive和SQL。

  SQL

結構化查詢語言(SQL)是程序員的最佳伴侶,主要用于處理和提取數據。大數據改變了數據處理和可視化的方式。但是SQL嚴格的關系數據庫模式和聲明特性依然是數據分析的標桿。盡管SQL市場廣闊,但是大數據也對SQL的功能和性能提出了挑戰。

Pig

Apache Pig適合有SQL背景的程序員學習,其有以下兩個特點:

1.放寬了對數據存儲的要求

2.可以操作大型數據集

Apache Pig是雅虎在2006年開發,除了上述特點,它還有很好的可擴展性和性能優化。 Apache Pig允許開發人員跟蹤多個查詢方法,從而降低了數據的重復檢索。它支持復合數據類型(Map、Tuple、Bag),支持常見的數據操作,例如篩選、排序和Join。Apache Pig的這些特性得到了世界各地用戶的認可,就連雅虎和推特也采用了Apache Pig。

Hive

盡管Apache Pig性能優異,但是它要求程序員要掌握SQL之外的知識。Hive和SQL非常相似,雖然Hive查詢語言(HQL)有一定的局限性,但它仍然是非常好用的。Hive為MapReduce提供了很好的開源實現。它在分布式處理數據方面表現很好,不像SQL需要嚴格遵守模式。

數據的提取、處理和分析沒有一個萬全之策,需要綜合多種因素來選擇,例如數據存儲方法,編程語言結構以及預期的結果。下面我們就來對比一下Pig、Hive和SQL,看看它們各自都適合什么樣的場景。

Pig VS SQL

SQL在DBMS系統的運行速度要比MapReduce(Pig運行在PigLatin平臺)快。然而,RDBMS的數據加載很具挑戰,設置困難。 PigLatin在聲明式執行計劃、ETL流程和管道修改方面更有優勢。

在很大程度上,SQL是聲明式語言,而PigLatin是過程語言。SQL主要是指定完成的對象,即要完成“什么”,而Pig主要是制定完成的方式,即“如何”執行一個任務。在執行之前,Pig腳本要轉化成MapReduce任務。不過,Pig腳本比相應的MapReduce任務要短,顯著縮短了開發時間。

Hive VS SQL

SQL是一個被廣泛用于事務性和分析查詢的通用數據庫語言。而Hive是以數據分析為目標而設計的,這也決定了Hive會缺少更新和刪除功能,但是讀取和處理海量數據的能力會很強。Hive和SQL是非常相似的,最主要的區別就是Hive缺少更新和刪除功能。

盡管Hive和SQL有所區別,但是如果你有SQL背景,就可以平穩過渡到Hive。另外,一定要注意兩者在結構和語法上的差異。

相信大家通過上面對Pig、Hive和SQL的介紹,對它們都有了一定的了解,下面我們就來介紹一下它們的具體適用場景。

Apache Pig的適用場景

Apache Pig適用于非結構化的數據集,可以充分利用SQL。Pig無需構建MapReduce任務,如果你有SQL學習的背景,那么入門會非常快。

Apache Hive的應用場景

很多企業都需要對歷史數據進行分析,Hive就是一款分析歷史數據的利器。但是Hive只有在結構化數據的情況下才能大顯神威。Hive的軟肋是實時分析,如果想要進行實時分析,可以采用HBase。

SQL的應用場景

SQL是三者之中資歷最老的數據分析工具,隨著用戶需求的不斷變更,SQL也在不斷的自我更新,現在仍然是一個與時俱進的工具。對專業的數據分析師來說,毫無疑問,SQL比Excel要強,但是,它在快速處理和分析數據方面仍然存在著短板。如果數據要求不是很苛刻,SQL是一個很好的選擇,它的廣泛性和靈活性得到了開發人員的認可。因為絕大數的開發人員都熟悉SQL,所以可以馬上上手,同時SQL還提供了一些擴展和優化功能,可以根據需求來定制產品。

現在還沒有任何一個工具可以適用所有的數據,SQL、Pig和Hive都有各自的適用場景,所以適合自己應用場景的工具就是最好的工具。

關鍵字:SQLHQLHive

本文摘自:大數據觀察

x 大數據主流工具,你知道幾個? 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

大數據主流工具,你知道幾個?

責任編輯:editor004 |來源:企業網D1Net  2016-11-18 11:00:12 本文摘自:大數據觀察

業內有這樣一種說法,SQL雖然在大數據分析領域久經考驗,但是無奈長江后浪推前浪,和炙手可熱的Hadoop相比,SQL已經過時了。這個說法有點言過其實,現在很多的項目都是將Hadoop作為數據存儲,然后利用SQL進行前端查詢。這說明Hadoop需要一種高級查詢語言的支持。 Hadoop MapReduce雖然能夠進行數據分析,但是太復雜了。于是,開發人員開發出了類似SQL的Pig和Hive。

大數據時代,我們有很多的查詢工具可以選擇。雖然SQL占據著絕對優勢,但是隨著大數據的持續升溫,也給了Apache Pig和Hive很大的發揮空間。工欲善其事必先利其器,如果選擇了合適的平臺和語言,會讓數據的提取,處理和分析達到事半功倍的效果。未來,數據會越來越大,數據分析必須要更易操作。處理速度快和操作簡單必定成為大數據分析的主流趨勢。

Apache Pig,Apache Hive和SQL是當今主流的大數據工具。它們各有優勢,下面我們就先來簡單介紹Apache Pig、Apache Hive和SQL。

  SQL

結構化查詢語言(SQL)是程序員的最佳伴侶,主要用于處理和提取數據。大數據改變了數據處理和可視化的方式。但是SQL嚴格的關系數據庫模式和聲明特性依然是數據分析的標桿。盡管SQL市場廣闊,但是大數據也對SQL的功能和性能提出了挑戰。

Pig

Apache Pig適合有SQL背景的程序員學習,其有以下兩個特點:

1.放寬了對數據存儲的要求

2.可以操作大型數據集

Apache Pig是雅虎在2006年開發,除了上述特點,它還有很好的可擴展性和性能優化。 Apache Pig允許開發人員跟蹤多個查詢方法,從而降低了數據的重復檢索。它支持復合數據類型(Map、Tuple、Bag),支持常見的數據操作,例如篩選、排序和Join。Apache Pig的這些特性得到了世界各地用戶的認可,就連雅虎和推特也采用了Apache Pig。

Hive

盡管Apache Pig性能優異,但是它要求程序員要掌握SQL之外的知識。Hive和SQL非常相似,雖然Hive查詢語言(HQL)有一定的局限性,但它仍然是非常好用的。Hive為MapReduce提供了很好的開源實現。它在分布式處理數據方面表現很好,不像SQL需要嚴格遵守模式。

數據的提取、處理和分析沒有一個萬全之策,需要綜合多種因素來選擇,例如數據存儲方法,編程語言結構以及預期的結果。下面我們就來對比一下Pig、Hive和SQL,看看它們各自都適合什么樣的場景。

Pig VS SQL

SQL在DBMS系統的運行速度要比MapReduce(Pig運行在PigLatin平臺)快。然而,RDBMS的數據加載很具挑戰,設置困難。 PigLatin在聲明式執行計劃、ETL流程和管道修改方面更有優勢。

在很大程度上,SQL是聲明式語言,而PigLatin是過程語言。SQL主要是指定完成的對象,即要完成“什么”,而Pig主要是制定完成的方式,即“如何”執行一個任務。在執行之前,Pig腳本要轉化成MapReduce任務。不過,Pig腳本比相應的MapReduce任務要短,顯著縮短了開發時間。

Hive VS SQL

SQL是一個被廣泛用于事務性和分析查詢的通用數據庫語言。而Hive是以數據分析為目標而設計的,這也決定了Hive會缺少更新和刪除功能,但是讀取和處理海量數據的能力會很強。Hive和SQL是非常相似的,最主要的區別就是Hive缺少更新和刪除功能。

盡管Hive和SQL有所區別,但是如果你有SQL背景,就可以平穩過渡到Hive。另外,一定要注意兩者在結構和語法上的差異。

相信大家通過上面對Pig、Hive和SQL的介紹,對它們都有了一定的了解,下面我們就來介紹一下它們的具體適用場景。

Apache Pig的適用場景

Apache Pig適用于非結構化的數據集,可以充分利用SQL。Pig無需構建MapReduce任務,如果你有SQL學習的背景,那么入門會非常快。

Apache Hive的應用場景

很多企業都需要對歷史數據進行分析,Hive就是一款分析歷史數據的利器。但是Hive只有在結構化數據的情況下才能大顯神威。Hive的軟肋是實時分析,如果想要進行實時分析,可以采用HBase。

SQL的應用場景

SQL是三者之中資歷最老的數據分析工具,隨著用戶需求的不斷變更,SQL也在不斷的自我更新,現在仍然是一個與時俱進的工具。對專業的數據分析師來說,毫無疑問,SQL比Excel要強,但是,它在快速處理和分析數據方面仍然存在著短板。如果數據要求不是很苛刻,SQL是一個很好的選擇,它的廣泛性和靈活性得到了開發人員的認可。因為絕大數的開發人員都熟悉SQL,所以可以馬上上手,同時SQL還提供了一些擴展和優化功能,可以根據需求來定制產品。

現在還沒有任何一個工具可以適用所有的數據,SQL、Pig和Hive都有各自的適用場景,所以適合自己應用場景的工具就是最好的工具。

關鍵字:SQLHQLHive

本文摘自:大數據觀察

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 临漳县| 于都县| 青海省| 临武县| 巴青县| 长岭县| 德庆县| 泸水县| 儋州市| 宁南县| 镇安县| 黔西县| 夏津县| 米泉市| 灵璧县| 仪陇县| 天气| 武宁县| 姚安县| 栾城县| 萍乡市| 和平县| 天全县| 民乐县| 专栏| 罗城| 股票| 呼伦贝尔市| 丰台区| 辽阳县| 新巴尔虎左旗| 三明市| 互助| 永顺县| 河北省| 枣阳市| 昭通市| 西丰县| 浏阳市| 平乐县| 恩平市|