国产毛片一区二区三区,欧美日韩高清一区二区三区电影,精品国产福利在线

Nagios、Ganglia與Splunk成就云計算監控體系

責任編輯：editor03

2013-09-17 08:50:46

摘自：新浪科技

綜合利用Nagios、Ganglia和Splunk搭建起的云計算平臺監控體系...

綜合利用Nagios、Ganglia和Splunk搭建起的云計算平臺監控體系，具備錯誤報警、性能調優、問題追蹤和自動生成運維報表的功能。有了這套系統，就可輕松管理Hadoop/HBase云計算平臺。

云計算早已不是停留在概念階段了，各大公司都購買了大量的機器，開始正式的部署和運營。而動輒上百臺的性能強勁的服務器，為運營管理帶來了巨大的挑戰。

如果沒有方便的監控報警平臺，對于管理員而言猶如噩夢，每天都將如救火隊員一樣，飛快地敲擊鍵盤，用原始的Unix命令在多臺機器中疲于奔命。

如果沒有好的日志管理平臺，對于開發者Troubleshooting更是一件淚流滿面的事情。

而如果你是運維團隊的總負責人，簡潔清晰的Report則非常重要。Stakeholder們動不動就可能問起系統的SLA、機器的利用率等諸多問題，畢竟，公司為此投入了巨大的資金和人力。

朋友們，當我們管理起公司寄予厚望的云計算平臺時，當我們面對如此多充滿挑戰的實際問題時，該怎么辦?

概述

我們在搭建趨勢云計算平臺時，遇到了很多的問題和挑戰。開始搭建時，第一次來了那么多性能強勁的機器，我們在感到興奮的同時，也不免有些顧慮。大家坐在一起討論，問題就列了滿滿一白板。

出了問題怎么辦，有沒有預警機制?

有沒有可視化的管理界面?

管理平臺需要自己開發嗎?開發難度有多大?

紅色部分清楚地標注有問題的機器，點開鏈接，就可以得到有問題機器的情況。雖然在HBase中，幾臺Region Server宕機不會對整體服務產生大的影響，但多少會影響到系統的Performance。而且，如果某幾臺Region Server頻繁宕機，對整個系統的穩定性也會產生不好的影響。有了Nagios，我們可以快速定位有問題的機器，及時地將一些機器移除出HBase系統，待調整好了再上線運行，以保證系統的穩定性。

現在，Nagios已經成為了很多公司必備的監控工具。只需要簡單地配置，就可以實現強大的功能，將管理員從日常煩瑣的工作中解放出來。

有了Nagios，哪怕就是管理上千臺機器，也不會手忙腳亂，而是有一種統領千軍、運籌帷幄的感覺。

Ganglia：看到云計算平臺的方方面面

Nagios的確不錯，但你是不是真的可以喝茶、釣魚、睡大覺呢?顯然還不行。有了Nagios，你基本上可以做個優秀的救火隊員，能在事發第一時間到達現場、處理事故。但如何防患于未然，真正做到運籌帷幄、游刃有余呢?

我們需要更加精確的數據，能夠看到云計算平臺的方方面面，能根據這些數據，做出性能調整、升級、擴容等的決策，從而保證Service能夠滿足不斷增長的業務需求。

這時候，你需要Ganglia。

Ganglia是UC Berkeley發起的一個開源實時監視項目，用于測量數以千計的節點，為云計算系統提供系統靜態數據以及重要的性能度量數據。Ganglia系統基本包含以下三大部分。

Gmond：Gmond運行在每臺計算機上，它主要監控每臺機器上收集和發送度量數據(如處理器速度、內存使用量等)。

Gmetad：Gmetad運行在Cluster的一臺主機上，作為Web Server，或者用于與Web Server進行溝通。

Ganglia Web前端：Web前端用于顯示Ganglia的Metrics圖表。

Hadoop和HBase本身對于Ganglia的支持非常好。通過簡單的配置，我們可以將Hadoop和HBase的一些關鍵參數以圖表的形式展現在Ganglia的Web Console上。這些對于我們洞悉Hadoop和HBase的內部系統狀態有很大的幫助。

在Hadoop的conf文件夾下面，找到hadoop-metrics.properties，配置好Ganglia的Server即可。這里要注意，Ganglia 3.0和Ganglia 3.1的區別，它們使用了不同的class。

dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 dfs.period=10 dfs.servers={Ganglia_Server}:8649

有了這些圖表，Hadoop和HBase就不再是一個黑盒。無論是Hadoop的Namenode、Datanode，還是HBase的 MasterServer、RegionServer任何時刻的情況，都會一目了然。由于圖標的跨度可以是小時、天、月甚至是年，這樣，就可以非常方便地定期生成周報、月報和年報。同時，根據圖中Metrics的狀況，我們可以通過調整參數、增加內存和硬盤、增加機器等的方法調整單個機器或者整個 Service的性能。

有沒有開源的管理工具?

那么多日志分布在各個機器上，有沒有更有效的方法管理?

能否生成好的報表?

機器宕機，管理員能否收到短信通知?

如何做性能調優?

擴容升級時，能否給出依據?

帶著這些問題，我們開始了自己的云計算平臺管理和運營之旅，一路走來，收獲頗豐。現在基本上形成了如圖1所示的一整套云計算平臺監控體系。