Nagios 配置及监控

Nagios

监控


在互联网日益发展的今天,监控的重要性已经不言而喻。可能打开一个URL要经过6-7层的处理,如果出了问题而没有监控将很难定位到问题所在。那哪些内容需要监控呢?

1.本地资源

(1) 负载:uptime; 
(2) CPU:top,sar,cpu温度; 
(3) 磁盘:df; 
(4) 内存:free; 
(5) IO:iostat; 
(6) RAID 
(7) passwd文件的变化(本地所有文件指纹识别)。

2.网络服务

端口、URL、ping丢包、进程数、IDC网络流量

3.其他设备

路由器、交换机端口流量、打印机、windows等

4.业务数据

用户登录失败次数,用户登录网站次数,输入验证码失败次数、某个API接口流量并发,电商网站订单,支付交易的数量等。这个获取的过程可能是开发或者架构师完成的,但添加的过程就是运维;


监控软件本身仅仅是一个平台,我们想监控的内容,理论上只要在服务器命令行可以获取到就可以被监控软件监控。

1.1 Nagios简介

Nagios又被称为难够死,因为很难。Nagios是一款开源的网络及服务的监控工具,其功能强大、灵活性强。能有效监控windows、LinuxUnix等系统的主机各种状态信息,交换机、路由器等网络设备,以及主机端口URL服务等。根据不同业务故障级别发出告警信息(邮件、微信、短信、语音报警、飞信、MSN)给管理员,当故障恢复时也会发出恢复消息给管理员。 
Nagios服务端可以在Unix及类Unix系统上运行,目前无法运行在windows。Windows可以作为被监控的主机,但是无法作为监控服务器。

1.2 Nagios构成

Nagios不好的地方在于它只做核心,很多其他功能都是通过插件来实现的。Nagios一般由一个主程序(Nagios),一个插件程序(Nagios-plugins)和一些可选的附加程序(NRPE,NSClient++,NSCA,NDOUtils)等。Nagios本身就是一个监控的平台而已,其具体的监控工作都是通过插件(Nagios-plugins,也可自己编写)来实现的。因此,Nagios主程序和Nagios-plugins插件都是Nagios服务端必须安装的程序组件,并且Nagios-plugins一般也要安装于被监控端。几个附加程序的描述如下: 
1. NRPE:半被动模式 
(1) 存在位置:工作在被监控端,操作系统为Linux/Unix; 
(2) 作用:用于在被监控的远程Linux/Unix主机上执行脚本插件获取数据回传给服务器端,以实现对这些主机资源的监控。主要用于监控本地资源; 
(3) 存在形式:守护进程(agent)模式,开启的端口为5666
2. NSClient++:半被动模式 
(1) 存在位置:监控Windows主机; 
(2) 作用:相当于Linux下的NRPE; 
3. NDOUtils:不推荐使用 
(1) 存在位置:Nagios服务器端; 
(2)作用:用于将Nagios的配置信息和各event产生的数据存入数据库以实现对这些数据的检索和处理。但是存入数据库还不如存放在磁盘上,因此推荐使用; 
4. NSCA:纯被动模式的监控 
(1)存在位置:同时安装在Nagios的服务器端和客户端; 
(2) 作用:用于让被监控的远程Linux/Unix主机主动将监控到的信息发送给Nagios服务器。在分布式监控集群模式中要用到,300台服务器以内可以不考虑;

1.3 原理

1.png-34.9kB
2.png-90kB

1.4 安装

三台虚拟机: 
3.png-5.5kB

1.4.1 服务端

调整字符集,如果不安装后面安装一些插件会有错误:

  1. [root@nagios ~]# echo 'exprot LC_ALL=C' >>/etc/profile
  2. [root@nagios ~]# . /etc/profile

关闭防火墙:

  1. [root@nagios ~]# /etc/init.d/iptables stop
  2. [root@nagios ~]# chkconfig iptables off

关闭selinux:

  1. [root@nagios ~]# setenforce 0
  2. [root@nagios ~]# sed -ri 's#^(SELINUX=).*#\1disabled#g' /etc/selinux/config

时间同步,监控的时间同步很重要:

  1. echo '# time sync' >>/var/spool/cron/root
  2. echo '*/10 * * * * /usr/sbin/ntpdate pool.ntp.org &>/dev/null' >>/var/spool/cron/root

需要安装web展示相关软件:

  1. [root@nagios ~]# yum install -y gcc glibc glibc-common gd gd-devel httpd php php-gd mysql*

gcc glibc glibc-common gcc编译器 
gd gd-devel画图用的 
httpd php \php-gd php环境,官方推荐LAMP,不要改成Nginx 
mysql* 生成MySQL的插件,MySQL不需要启动 
准备所需软件:

  1. [root@nagios hadoop]# tree
  2. .
  3. |-- Class-Accessor-0.31.tar.gz # iostat监控插件所需
  4. |-- Config-Tiny-2.12.tar.gz # 同上
  5. |-- Math-Calc-Units-1.07.tar.gz # 同上
  6. |-- Nagios-Plugin-0.34.tar.gz # 同上
  7. |-- Params-Validate-0.91.tar.gz # 同上
  8. |-- Regexp-Common-2010010201.tar.gz # 同上
  9. |-- check_iostat # 用于监控的插件
  10. |-- check_memory.pl # 用于监控的插件
  11. |-- check_mysql # 用于监控的插件
  12. |-- libart_lgpl-2.3.17.tar.gz # iostat监控插件所需
  13. |-- nagios-3.5.1.tar.gz # 主程序
  14. |-- nagios-plugins-1.4.16.tar.gz # 插件管理
  15. |-- nrpe-2.12.tar.gz # agent
  16. |-- pnp-0.4.14.tar.gz # 画图的web程序,这个是展示
  17. `-- rrdtool-1.2.14.tar.gz # pnp的辅助程序,这个才是画图的

软件包下载 密码:usyr

创建所需用户,并将apachenagios同属于一个组,方便一起管理:

  1. useradd -m nagios
  2. groupadd nagcmd
  3. usermod -a -G nagcmd nagios
  4. usermod -a -G nagcmd apache

安装:

  1. [root@nagios hadoop]# tar xf nagios-3.5.1.tar.gz
  2. [root@nagios hadoop]# cd nagios
  3. [root@nagios nagios]# ./configure --with-command-group=nagcmd
  4. [root@nagios nagios]# make all
  5. [root@nagios nagios]# make install
  6. make install-init
  7. - This installs the init script in /etc/rc.d/init.d
  8. make install-commandmode
  9. - This installs and configures permissions on the
  10. directory for holding the external command file
  11. make install-config
  12. - This installs sample config files in /usr/local/nagios/etc
  13. make[1]: Leaving directory `/admin/hadoop/nagios'

这是编译后出现的信息提示,可以时候以上三种编译方式生成启动脚本、命令和配置文件样例

  1. [root@nagios nagios]# make install-init && make install-config && make install-commandmode
  2. [root@nagios nagios]# make install-webconf # 生成了如何在httpd中显示Nagios的配置文件
  3. /usr/bin/install -c -m 644 sample-config/httpd.conf /etc/httpd/conf.d/nagios.conf # 就是这个文件

配置web认证:

  1. htpasswd -cb /usr/local/nagios/etc/htpasswd.users oldboy 123456

# -b:非交互 
安装插件:

  1. yum install -y perl-devel
  2. tar xf nagios-plugins-1.4.16.tar.gz
  3. cd nagios-plugins-1.4.16
  4. ./configure --with-nagios-user=nagios --with-nagios-group=nagios --enable-perl-modules
  5. make && make install
  6. cd ..
  7. ls /usr/local/nagios/libexec/|wc -l # 插件有61个,多比少好

安装NRPE,之所以服务端也安装NRPE,一是是因为要在…/nagios/libexec/目录下生成check_nrpe命令;二是服务端也要通过NRPE进行监控:

  1. tar xf nrpe-2.12.tar.gz
  2. cd nrpe-2.12
  3. ./configure
  4. make all
  5. make install-plugin
  6. make install-daemon
  7. make install-daemon-config
  8. cd ..

最后启动,Nagios是不会监听端口的,因为不会有程序发数据给它。

  1. /etc/init.d/httpd start
  2. /etc/init.d/nagios start
  3. lsof -i :80
  4. ps aux |grep nagios

1.4.2 被监控端

调整字符集,如果不安装后面安装一些插件会有错误:

  1. echo 'exprot LC_ALL=C' >>/etc/profile
  2. . /etc/profile

关闭防火墙:

  1. /etc/init.d/iptables stop
  2. chkconfig iptables off

时间同步,监控的时间同步很重要:

  1. echo '# time sync' >>/var/spool/cron/root
  2. echo '*/10 * * * * /usr/sbin/ntpdate pool.ntp.org &>/dev/null' >>/var/spool/cron/root

创建用户:

  1. [root@lamp ~]# useradd -m nagios -s /sbin/nologin

安装perl

  1. yum install -y perl-devel perl-CPAN openssl*
  2. yum install -y mysql-server # 这是为了解决报错

安装插件:

  1. tar xf nagios-plugins-1.4.16.tar.gz
  2. cd nagios-plugins-1.4.16
  3. ./configure --prefix=/usr/local/nagios --enable-perl-modules --enable-redhat-pthread-workaround #--with-mysql=/usr/bin/mysql
  4. # --enable-redhat-pthread-workaround:如果redhat系统不加这个会很慢
  5. # --with-mysql是为了解决make: *** [all] Error 2
  6. make && make install
  7. cd ..
  8. ls /usr/local/nagios/libexec/|wc -l # 结果为59而不是61估计跟MySQL有关

安装NRPE:

  1. tar xf nrpe-2.12.tar.gz
  2. cd nrpe-2.12
  3. ./configure
  4. make all
  5. make install-plugin
  6. make install-daemon
  7. make install-daemon-config
  8. cd ..

安装iostat:

  1. tar xf Params-Validate-0.91.tar.gz
  2. cd Params-Validate-0.91
  3. perl Makefile.PL
  4. make
  5. make install
  6. cd ..
  7. tar xf Class-Accessor-0.31.tar.gz
  8. cd Class-Accessor-0.31
  9. perl Makefile.PL
  10. make && make install
  11. cd ..
  12. tar xf Config-Tiny-2.12.tar.gz
  13. cd Config-Tiny-2.12
  14. perl Makefile.PL
  15. echo $?
  16. make && make install
  17. cd ..
  18. tar xf Math-Calc-Units-1.07.tar.gz
  19. cd Math-Calc-Units-1.07
  20. perl Makefile.PL
  21. make && make install
  22. cd ..
  23. tar xf Regexp-Common-2010010201.tar.gz
  24. cd Regexp-Common-2010010201
  25. perl Makefile.PL
  26. make && make install
  27. cd ..
  28. tar xf Nagios-Plugin-0.34.tar.gz
  29. cd Nagios-Plugin-0.34
  30. perl Makefile.PL
  31. make
  32. make install
  33. cd ..
  34. yum install -y sysstat
  35. cp /root/tools/check_memory.pl /usr/local/nagios/libexec/
  36. cp /root/tools/check_iostat /usr/local/nagios/libexec/
  37. chmod 755 /usr/local/nagios/libexec/check_memory.pl
  38. chmod 755 /usr/local/nagios/libexec/check_iostat
  39. yum install -y dos2unix
  40. dos2unix /usr/local/nagios/libexec/check_iostat
  41. dos2unix /usr/local/nagios/libexec/check_memory.pl

修改客户端的配置文件:

  1. cd /usr/local/nagios/etc/
  2. cp nrpe.cfg{,.bak}
  3. sed -ri 's@^allowed_hosts.*@&,10.0.0.1@g' nrpe.cfg # 允许10.0.0.1监控
  4. sed -ri '199,203d' nrpe.cfg

# 以下是用来告诉NRPE这个守护进程怎么去监控

  1. echo "command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,6 -c 30,25,20" >>nrpe.cfg
  2. echo "command[check_mem]=/usr/local/nagios/libexec/check_memory.pl -w 6% -c 3%" >>nrpe.cfg
  3. echo "command[check_disk]=/usr/local/nagios/libexec/check_disk -w 20% -c 8% -p /" >>nrpe.cfg
  4. echo "command[check_swap]=/usr/local/nagios/libexec/check_swap -w 20% -c 10%" >>nrpe.cfg
  5. echo "command[check_iostat]=/usr/local/nagios/libexec/check_iostat -w 6 -c 10" >>nrpe.cfg

[check_load]:相当于模块名 
/usr/local/nagios/libexec/check_load:获取资源的命令 
# 也就是说通过调用check_load就相当于执行/usr/local/nagios/libexec/check_load这个命令 
启动NRPE:

  1. /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d

# -c:指定配置文件 
# -d:daemon

  1. echo "# nagios nrpe process cmd" >>/etc/rc.local # 开机自启
  2. echo "/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d" >>/etc/rc.local
  3. ss -lnt|grep 5666

1.5 开始监控

监控之前也要在服务器端安装客户端软件。 
Nagios安装生成的文件:

  1. [root@nagios nagios]# pwd
  2. /usr/local/nagios
  3. [root@nagios nagios]# tree -L 1
  4. .
  5. |-- bin
  6. |-- etc
  7. |-- libexec # 插件
  8. |-- sbin # CGI程序
  9. |-- share # Nagios界面展示的php程序等内容的目录,被Nagios在httpd配置文件目录生成的配置文件所调用
  10. `-- var # 日志和数据
  11. 6 directories, 0 files

配置文件目录:

  1. [root@nagios nagios]# tree etc/
  2. etc/
  3. |-- cgi.cfg # 被主配置文件包含
  4. |-- nagios.cfg # 主配置文件
  5. |-- objects # 被主配置文件包含
  6. | |-- commands.cfg # 存放Nagios命令相关配置(也可指定commands目录),这里的命令不是系统命令
  7. | |-- contacts.cfg
  8. | |-- localhost.cfg # 对本机的监控,我们不使用它进行监控,而是将本机当成客户端来监控
  9. | |-- printer.cfg # 打印机
  10. | |-- switch.cfg # 交换机
  11. | |-- templates.cfg # 模板配置文件
  12. | |-- timeperiods.cfg
  13. | `-- windows.cfg # windows
  14. `-- resource.cfg # 被主配置文件包含,这里面是Nagios内置变量的定义,如$USER1$,$USER2$,$USER3$等

内容解释:

#commands.cfg:存放Nagios命令相关配置(也可指定commands目录),这里的命令不是系统命令,而是实现把Nagios中定义的命令和Linux系统中的插件命令关联的一个文件。如oldboy=/bin/cat,oldboy就是Nagios命令,而/bin/cat则是系统命令; 
services.cfg:存放具体被监控的服务相关的配置内容(对哪些服务进行监控),上百台以上可指定services目录,默认不存在; 
hosts.cfg:存放具体被监控的主机相关配置,上百台以上可指定hosts目录,默认不存在; 
contacts.cfg:存放报警联系人相关配置的文件; timeperiods.cfg:存放报警周期时间等相关配置; 
template.cfg:模板配置文件,模板的存在是为了方便的配置服务器配置,类似shell里的函数功能

编辑主配置文件: 
# 主配置文件是通过cfg_file来包含其他配置文件的,我们可以让其包含上述两个并不存在的配置文件:

  1. [root@nagios etc]# sed -ri '33acfg_file=/usr/local/nagios/etc/objects/hosts.cfg' nagios.cfg
  2. [root@nagios etc]# sed -ri '33acfg_file=/usr/local/nagios/etc/objects/services.cfg' nagios.cfg

# 注释掉localhost

  1. [root@nagios etc]# sed -ri 's@cfg_file=/usr/local/nagios/etc/objects/localhost.cfg@#&@g' nagios.cfg

# 主配置文件还可以包含目录,只要目录下面存在以.cfg结尾的文件都会被包含进来。在配置文件很多时还是可以使用的:

  1. [root@nagios etc]# sed -ri 's@#(cfg_dir=/usr/local/nagios/etc/servers)@\1@g' nagios.cfg

创建目录和文件:

  1. mkdir servers
  2. chown -R nagios.nagios servers/
  3. cd objects/
  4. head -51 localhost.cfg >hosts.cfg
  5. chown nagios.nagios hosts.cfg
  6. touch services.cfg # 暂时留空
  7. chown nagios.nagios services.cfg

加入被监控主机: 
# 编辑hosts.cfg配置文件,也就是head localhost文件生成的

  1. [root@nagios objects]# vim hosts.cfg
  2. define host{
  3. use
  4. host_name 02-client1
  5. alias 02-client1
  6. address 10.0.0.2
  7. }
  8. define host{ # 将本机也加入监控
  9. use linux-server
  10. host_name 01-nagios
  11. alias 01-nagios
  12. address 10.0.0.1
  13. }

解释:

这一个标签就是一个被监控的主机 
use表示一个使用名为linux-server的模板,该模板就是和hosts.cfg在同一个目录下的timeperiods.cfg,在该文件中可以搜索到linux-server定义的属性。可以也可以将该模板中定义的熟悉写在define 
host{}标签内,如果在该标签中定义了,那么就以该标签中的内容为准;如果没定义就会模板配置文件中找。使用模板配置文件的好处就在于在现在这个标签内只需定义四行即可。

  1. define hostgroup{ # 再将两个客户端加入一个组
  2. hostgroup_name linux-servers
  3. alias Linux Servers
  4. members 02-client1,01-nagios
  5. }

检查配置文件: 
# 检查配置文件的方法有两种,第一种为:

  1. /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

# 第二种:

  1. /etc/init.d/nagios checkconfig

# 其实第种就是调用第一种的命令,但是它将信息都定义到了/dev/null中了,根本看不出来什么地方出错了,因此我们可以修改启动脚本中的内容:

  1. [root@nagios objects]# vim /etc/init.d/nagios +183
  2. checkconfig)
  3. printf "Running configuration check..."
  4. $NagiosBin -v $NagiosCfgFile # 将后面的重定向去掉

# 执行命令

  1. [root@nagios objects]# /etc/init.d/nagios checkconfig
  2. ...
  3. Error: There are no services defined! # 这就是错误,没有定义服务。下面就是统计的
  4. ...
  5. Total Warnings: 2 # 警告无所谓
  6. Total Errors: 1 # 但是错误一定要解决
  7. ...

# 既然没有定义服务,那我们就定义一个:

  1. define service {
  2. use generic-service # 模板
  3. host_name 02-client1,01-nagios # 被监控主机
  4. service_description Disk Partition # 检查磁盘分区
  5. check_command check_nrpe!check_disk
  6. }

check_nrpe:Nagios的命令,需要在commands.cfg文件中定义 
check_disk:调用客户端配置文件nrpe.cfg中[check_disk]标签后面的命令

command[check_disk]=/usr/local/nagios/libexec/check_disk -w 20% -c 8% 
-p /

# 继续编辑commands.cfg配置文件,在配置文件的结尾加入以下几行:

  1. # 'check_nrpe' command definition
  2. define command{
  3. command_name check_nrpe
  4. command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
  5. }

# -c:指定一个参数,这个参数就是check_disk

# 其实定义这么多的参数无非就是为了执行这一条命令:

  1. [root@nagios objects]# /usr/local/nagios/libexec/check_nrpe -H 10.0.0.2 -c check_disk
  2. DISK OK - free space: / 57841 MB (95% inode=97%);| /=2760MB;51080;58742;0;63851

# 再次检查配置文件,结果ok

  1. [root@nagios objects]# /etc/init.d/nagios checkconfig

1.png-74.6kB

启动服务并访问web界面:

  1. /etc/init.d/nagios start
  2. /etc/init.d/httpd start

2.png-116.7kB

我们点击左边的services,会出现报错信息,解决办法就是编辑cgi.cfg: 
3.png-9.1kB

  1. [root@nagios etc]# pwd
  2. /usr/local/nagios/etc
  3. [root@nagios etc]# grep nagiosadmin cgi.cfg
  4. authorized_for_system_information=nagiosadmin
  5. authorized_for_configuration_information=nagiosadmin
  6. authorized_for_system_commands=nagiosadmin
  7. authorized_for_all_services=nagiosadmin
  8. authorized_for_all_hosts=nagiosadmin
  9. authorized_for_all_service_commands=nagiosadmin
  10. authorized_for_all_host_commands=nagiosadmin

# 从以上信息可以看出nagiosadmin就是Nagios的管理员,我们现在是没有权限,因此我们可以将nagiosadmin改为我们一开始添加的认证的用户oldboy。当然也可以使用nagiosadmin作为认证用户

  1. [root@nagios etc]# sed -i 's/nagiosadmin/oldboy/g' cgi.cfg
  2. [root@nagios etc]# grep oldboy cgi.cfg
  3. authorized_for_system_information=oldboy
  4. authorized_for_configuration_information=oldboy
  5. authorized_for_system_commands=oldboy
  6. authorized_for_all_services=oldboy
  7. authorized_for_all_hosts=oldboy
  8. authorized_for_all_service_commands=oldboy
  9. authorized_for_all_host_commands=oldboy

重启服务:

  1. [root@nagios etc]# /etc/init.d/nagios reload

4.png-13kB

1.5.1 刷新时间的定义

  1. status_update_interval=3 # 默认10s刷新状态之类的数据
  2. [root@nagios etc]# sed -ri 's/(^status_u.*=).*/\13/g' nagios.cfg
  3. max_service_check_spread=10 # 最大的服务检查间隔
  4. [root@nagios etc]# sed -ri 's/(^max_s.*=).*/\110/g' nagios.cfg
  5. auto_rescheduling_interval=5 # 尝试自动检查的时间间隔
  6. [root@nagios etc]# sed -ri 's/(^auto_rescheduling_i.*=).*/\15/g' nagios.cfg
  7. command_check_interval=-1 # -1的意思是尽可能的经常检查,但这不是我们想要的
  8. [root@nagios etc]# sed -ri 's/(^command_c.*=).*/\12s/g' nagios.cfg # 改为2s
  9. retention_update_interval=10
  10. [root@nagios etc]# sed -ri 's/(^rete.*=).*/\110/g' nagios.cfg
  11. interval_length=10
  12. [root@nagios etc]# sed -ri 's/(^in.*=).*/\110/g' nagios.cfg
  13. service_freshness_check_interval=10
  14. [root@nagios etc]# sed -ri 's/(^service_f.*=).*/\110/g' nagios.cfg
  15. host_freshness_check_interval=10
  16. [root@nagios etc]# sed -ri 's/(^host_f.*=).*/\110/g' nagios.cfg

1.5.2 一些排错的思路

(1) 客户端获取值失败:

  1. [root@client1 ~]# /usr/local/nagios/libexec/check_nrpe -H 10.0.0.2 -c check_disk
  2. CHECK_NRPE: Error - Could not complete SSL handshake. # 握手失败

# 这种问题的解决办法很简单,只需要执行下面这条命令即可:

  1. [root@client1 ~]# /usr/local/nagios/libexec/check_nrpe -H 127.0.0.1 -c check_disk

# 如果能够获得值,那就是没有添加网卡地址,在nrpe.cfg中修改allowed_hosts=127.0.0.1这一行 
(2) 状态为CRITICAL 
<img src="http://static.zybuluo.com/abcdocker/6o71skfpe45lmda82uegogoq/%7B%60%5B%7DEO%60GAYB~UR%7B2PXBZ80O.png" alt="{[}EOGAYB~UR{2PXBZ80O.png-4.3kB” title=””>

# 这种问题就是连接失败,要么是务没起,要么就是防火墙没关。我们可以现在本地执行:

  1. /usr/local/nagios/libexec/check_nrpe -H 10.0.0.2 -c check_disk

# 当然ip和参数都可以改,通过该命令就能得到答案,因为改命令就是Nagios获取监控值的过程 
(3) 命令行执行能够获取数值,但是web界面去获取不到。

  1. define service {
  2. use generic-service
  3. host_name 02-client1,01-nagios
  4. service_description Disk Partition
  5. check_command check_nrpe!check_disk # 肯定是这个参数定义错了
  6. }

(4) Unable to read output

1.png-3.7kB

# 出现这种问题的原因就是获取值的插件没有执行权限,或者是这插件就是有问题的,总之就是插件的错。

  1. command[check_mem]=/usr/local/nagios/libexec/check_memory.pl -w 6% -c 3% # check_memory.pl就是插件
  2. [root@nagios libexec]# chmod +x check_memory.pl # 执行该命令,如果还是不行,那就是插件本身的问题了

总结,当web界面显示出现问题时: 
(1) Nagios自身和配置文件; 
(2) 在服务器端执行: 
/usr/local/nagios/libexec/check_nrpe -H 被监控主机地址-c 获取值的命令 
(3) 在客户端本地执行: 
/usr/local/nagios/libexec/check_nrpe -H 127.0.0.1 -c获取值的命令 
(4) 执行nrpe.cfg配置文件中的获取值的命令:

command[check_disk]=/usr/local/nagios/libexec/check_disk -w 20% -c 8% 
-p / # 执行该命令

老男孩老师补几个提醒: 
(1) 检查客户端系统自带的防火强,是否drop了5666端口; 
(2) nrpe添加完命令后,有没有真正重启; 
(3) nrpe.cfg配置文件中的allow_hosts这行的ip千万不要加错了。

1.5.3 添加其他监控项

  1. [root@nagios objects]# cat services.cfg
  2. define service {
  3. use generic-service
  4. host_name 02-client1,01-nagios
  5. service_description Disk Partition
  6. check_command check_nrpe!check_disk
  7. }
  8. define service {
  9. use generic-service
  10. host_name 02-client1,01-nagios
  11. service_description Memory Partition
  12. check_command check_nrpe!check_mem
  13. }
  14. define service {
  15. use generic-service
  16. host_name 01-nagios,02-client1
  17. service_description load
  18. check_command check_nrpe!check_load
  19. }
  20. define service {
  21. use generic-service
  22. host_name 01-nagios,02-client1
  23. service_description swap
  24. check_command check_nrpe!check_swap
  25. }
  26. define service {
  27. use generic-service
  28. host_name 01-nagios,02-client1
  29. service_description iostat
  30. check_command check_nrpe!check_iostat
  31. }

1.6 主动模式

按照监控的行为,老男孩老师把Nagios的监控分为主动监控和被动监控(NRPE半被动和NSCA全被动)。 
(1) 主动监控:所谓的主动模式就是Nagios服务器端发起的监控,如URL地址、端口监控等。主动模式获取值的命令无需经过nrpe,Nagios自身能够直接发起,也就是说不需要在客户端安装任何插件。当然,主动监控模式也能配置成被动模式。 
(2) 半被动监控:我们把对负载、内存、硬盘、虚拟内存、磁盘IO、温度、风扇转速等这些本地资源而非系统对外提供的服务的监控称为半被动模式。半被动模式的特点是对于这些本地资源的监控一般由Nagios插件定时去连接client的NRPE服务,定期获取信息发回Nagios服务器端。基本上只要安装了类似NRPE的agent端,且通过插件的方式的监控我们都认为是半被动监控。 
上面讲到的都是被动模式

如何选择主动和被动? 
(1) 对于本地资源的监控,一般都使用被动模式。如负载、磁盘、内存、虚拟内存、磁盘IO、温度、风扇等的监控(我们也可以通过snmp来监控部分系统资源); 
(2) 对于web服务、数据库这种能对外提供服务的监控,一般采用主动模式。如监控http、ssh、MySQL、rsync等服务; 
(3) 主动和被动是相对的,并且是可以相互转换的。即主动模式的服务可以改成被动的;而被动模式有时也可以改为主动。 
总之: 
(a) 主动模式就和NRPE无关了,就是利用服务端本地插件直接获取信息; 
(b) 被动模式则是Nagios主程序通过check_nrpe插件和客户端NRPE进程沟通,调用本地插件获取数据。

主动模式有check_tcpcheck_http这两个非常常用的插件,一个是检查端口,另一个则是检查URL,它们都能够使用–help查看使用帮助。

  1. [root@nagios libexec]# ./check_http --help
  2. [root@nagios libexec]# ./check_tcp --help

# 以下是最基本的使用方法

  1. [root@nagios libexec]# ./check_tcp -H 10.0.0.2 -p 22
  2. TCP OK - 0.000 second response time on port 22|time=0.000299s;;;0.000000;10.000000
  3. [root@nagios libexec]# ./check_http -I 10.0.0.2
  4. HTTP OK: HTTP/1.1 200 OK - 248 bytes in 0.024 second response time |time=0.023816s;;;0.000000 size=248B;;;0

1.6.1 监控一个域名或URI

先说说使用主配置文件包含一个目录的好处: 
(1) 该目录下的所有所有以.cfg为后缀的配置文件都会被Nagios加载,因此当我们不想使用其中的配置文件时,只需要改变其后缀名即可; 
(2) 我们一个以一个服务名为目录名,下面的配置文件都是监控这个服务的;还可以以一个主机命名,下面的配置文件都是监控这个主机的。可以根据业务需要进行配置。

1. 添加一个服务:

  1. [root@nagios etc]# vim servers/http.cfg # server是主配置文件中包含的目录
  2. define service {
  3. use generic-service
  4. host_name 02-client1
  5. service_description blog_url
  6. check_command check_weburl!-I 10.0.0.2
  7. max_check_attempts 3
  8. normal_check_interval 2
  9. retry_check_interval 1
  10. check_period 24x7
  11. notification_interval 30
  12. notification_period 24x7
  13. notification_options w,u,c,r
  14. contact_groups admins
  15. }

check_weburl:check_weburl这个可以直接换成check_http,但是也可以在commands.cfg文件中定义,让它和这个check_http关联起来; 
-I 10.0.0.2 可以使用域名而非ip,工作中肯定是使用域名的,这里只是测试

2. 编辑commands.cfg,加入check_weburl

  1. [root@nagios etc]# vim objects/commands.cfg
  2. # 'check_http' command definition # 这里面已经存在了check_http,因此可以直接替换上面的check_weburl
  3. define command{
  4. command_name check_http
  5. command_line $USER1$/check_http -I $HOSTADDRESS$ $ARG1$
  6. }
  7. # 'check_weburl' command definition
  8. define command{
  9. command_name check_weburl
  10. command_line $USER1$/check_http $ARG1$ -w 10 -c 30
  11. }

# 之所以重新定义check_weburl,是为了增加-w 10 -c 30,10秒钟之内返回结果为警告,30秒内返回结果那就很严重了

3. 重新加载配置文件:

  1. [root@nagios etc]# /etc/init.d/nagios checkconfig
  2. [root@nagios etc]# /etc/init.d/nagios reload

以上是ip,下面是域名:

  1. [root@nagios etc]# cat servers/http.cfg
  2. define service {
  3. use generic-service
  4. host_name 02-client1
  5. service_description blog_url
  6. check_command check_weburl!-I 10.0.0.2
  7. max_check_attempts 3
  8. normal_check_interval 2
  9. retry_check_interval 1
  10. check_period 24x7
  11. notification_interval 30
  12. notification_period 24x7
  13. notification_options w,u,c,r
  14. contact_groups admins
  15. }
  16. define service {
  17. use generic-service
  18. host_name 02-client1
  19. service_description blog_url2
  20. check_command check_weburl!-H blog.etiantian.org # 域名
  21. max_check_attempts 3
  22. normal_check_interval 2
  23. retry_check_interval 1
  24. check_period 24x7
  25. notification_interval 30
  26. notification_period 24x7
  27. notification_options w,u,c,r
  28. contact_groups admins
  29. }
  30. define service {
  31. use generic-service
  32. host_name 02-client1
  33. service_description blog_url3
  34. check_command check_weburl!-H blog.etiantian.org -u "/exec/test" # URI
  35. max_check_attempts 3
  36. normal_check_interval 2
  37. retry_check_interval 1
  38. check_period 24x7
  39. notification_interval 30
  40. notification_period 24x7
  41. notification_options w,u,c,r
  42. contact_groups admins
  43. }

# 编辑hosts文件,域名都有公网DNS解析了,为什么还要添加hosts呢?因为使用公网DNS很容易误报,如果监控服务器本身DNS出问题了就会导致误报。缺点是不能监控到DNS导致的域名解析故障。

  1. [root@nagios etc]# vim /etc/hosts
  2. 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 nagios
  3. ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
  4. 10.0.0.2 blog.etiantian.org

# curl一下,看看是否有问题

  1. [root@nagios etc]# curl blog.etiantian.org
  2. blog.etiantian.org

# 再次检查:

  1. [root@nagios etc]# /usr/local/nagios/libexec/check_http -H blog.etiantian.org
  2. HTTP OK: HTTP/1.1 200 OK - 249 bytes in 0.001 second response time |time=0.000688s;;;0.000000 size=249B;;;0

# 这是对URL做监控

  1. [root@nagios etc]# /usr/local/nagios/libexec/check_http -H blog.etiantian.org -u /exec/test
  2. HTTP OK: HTTP/1.1 200 OK - 243 bytes in 0.001 second response time |time=0.000784s;;;0.000000 size=243B;;;0

# 重载配置文件:

  1. [root@nagios etc]# /etc/init.d/nagios checkconfig
  2. [root@nagios etc]# /etc/init.d/nagios reload

2.png-28.5kB

如果不是监控域名而是URI的话,当该URI有特殊符号,也就是没有做伪静态时,使用这个URL一定要用引号一起来不然就会报错:

  1. define service {
  2. use generic-service
  3. host_name 02-client1
  4. service_description blog_url
  5. check_command check_weburl!-H blog.etiantian.org -u "/main_free.jsp?dirId=32234&gId=3"

我们可以删除URI中的文件,查看监控的反应: 
2.png-5.4kB

1.6.2 监控端口

监控端口使用的是check_tcp这个插件,这个命令已经在commands.cfg中定义了,我们直接拿来用就行。比如监听80端口:

  1. [root@nagios etc]# vim servers/http.cfg
  2. define service {
  3. use generic-service
  4. host_name 02-client1
  5. service_description blog_prot_80
  6. check_command check_tcp!80 # 已经在commands.cfg中定义了
  7. max_check_attempts 3
  8. normal_check_interval 2
  9. retry_check_interval 1
  10. check_period 24x7
  11. notification_interval 30
  12. notification_period 24x7
  13. notification_options w,u,c,r
  14. contact_groups admins
  15. }

# 重载配置文件

  1. [root@nagios etc]# /etc/init.d/nagios checkconfig
  2. [root@nagios etc]# /etc/init.d/nagios reload

所有端口都可以这么监控,只需要改个描述和端口号即可。

1.6.3 集群节点控制

利用别名实现对集群下面同样的节点的URL监控,因为相同的域名下所有节点都是一样的,这是就可以通过别名区分同一个域名解析下的所有主机:

web1 blog.etiantian.org,blog1.etiantian.org 
web2 blog.etiantian.org,blog2.etiantian.org

1.6.4 小结

一般客户端对外开启的服务,用主动模式监控。如port,url

主动模式的监控配置过程: 
(1) 在服务端的命令行把要监控的命令先调试好; 
(2) 在commands.cfg中定义Nagios命令,同时调用命令行的插件; 
(3) 在服务的配置文件中定义要监控的服务,调用commands.cfg中定义Nagios的监控命令。

1.6.5 被动模式监控端口

被动模式就要在客户端进行 
1) 先测试命令在命令行是否执行成功:

  1. [root@client1 etc]# /usr/local/nagios/libexec/check_tcp -H 10.0.0.2 -p 80
  2. TCP OK - 0.000 second response time on port 80|time=0.000132s;;;0.000000;10.000000

2) 然后加入到nrpe.cfg中:

  1. [root@client1 etc]# echo "command[check_port_80]=/usr/local/nagios/libexec/check_tcp -H 10.0.0.2 -p 80 -w 5 -c 10" >>nrpe.cfg

3) 重启服务:

  1. ps aux|grep nrpe
  2. pkill nrpe
  3. ps aux|grep nrpe
  4. /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
  5. ps aux|grep nrpe

4) 在服务端命令测试:

  1. [root@nagios libexec]# ./check_nrpe -H 10.0.0.2 -c check_port_80
  2. TCP OK - 0.000 second response time on port 80|time=0.000162s;5.000000;10.000000;0.000000;10.000000

5) 添加一个services:

  1. [root@nagios etc]# vim servers/http.cfg
  2. define service {
  3. use generic-service
  4. host_name 02-client1
  5. service_description blog_prot_80_passive
  6. check_command check_nrpe!check_port_80
  7. max_check_attempts 3
  8. normal_check_interval 2
  9. retry_check_interval 1
  10. check_period 24x7
  11. notification_interval 30
  12. notification_period 24x7
  13. notification_options w,u,c,r
  14. contact_groups admins
  15. }

6) 重载配置文件

  1. [root@nagios etc]# /etc/init.d/nagios checkconfig
  2. [root@nagios etc]# /etc/init.d/nagios reload

222.png-4.3kB

1.7 服务分组

先定义一个配置文件,然后写入配置:

  1. [root@nagios etc]# vim servers/servergroup.cfg
  2. define servicegroup{
  3. servicegroup_name swap # 这个swap要和前面定义的服务名对应上
  4. alias Linux Servers
  5. members 02-client1,swap,01-nagios,swap # 监控的主机,服务的组名,第二个监控主机,服务的组名... 这样就达到了服务分组的目的
  6. }

重载服务后,在哪里查看呢?点击左侧栏的Service Groups: 
2.png-47.6kB

今后就能够通过这种方式进行分组了,比如将所有要监控swap、cpu、磁盘等等的主机放在一个组里面。但是这个并不是太重要。

1.8 Nagios日志

Nagios也可以通过日志排查问题,日志所在位置为/usr/local/nagios/var/nagios.log,但是排错的思路前面已经讲到了,无需看日志。

1.9 主机和服务监控的重要参数

主机:

  1. define host { # 定义主机
  2. use linux-server # 主机使用的模板,详见templates.cfg
  3. host_name 02-client1 # 这个主机名和关键,很多监控的定义都会引用这个主机名
  4. alias 02-client1 # 主机别名
  5. address 10.0.0.2 # ip
  6. check_command check-host-alive # 检测主机存活的命令,来自commands.cfg
  7. max_check_attempts 3 # 故障后的最大检测次数
  8. normal_check_interval 2 # 正常的检查间隔,默认单位为分钟
  9. retry_check_interval 1 # 故障后重试的检查间隔,默认单位为分钟
  10. check_period 24x7 # 检查周期24x7,具体详见timeperiods.cfg
  11. notification_interval 30 # 故障后,两次报警的通知间隔,默认单位为分钟
  12. notification_period 24x7 # 一天之内通知的周期,如全天、半天等,详见timeperiods.cfg
  13. notification_options d,u,r # 哪些问题会报警,d-down,u-unreachable(不可达),r-recovery(主机恢复)
  14. contact_groups admins # 报警到admins用户组,在contacts.cfg中定义
  15. }

服务:

  1. define service {
  2. use generic-service
  3. host_name 02-client1
  4. service_description blog_prot_80_passive # 报警服务的描述
  5. check_command check_nrpe!check_port_80 # 检查服务的命令
  6. max_check_attempts 3
  7. normal_check_interval 2
  8. retry_check_interval 1
  9. check_period 24x7
  10. notification_interval 30
  11. notification_period 24x7
  12. notification_options w,u,c,r # w-warning,u-unknown(状态不知道),c-critical(特别严重),r-recovery(恢复)
  13. contact_groups admins
  14. process_perf_data 1 # PNP出图记录数据相关
  15. }

1.9.1 服务模板

不管是服务还是主机,一半只会定义前四项,其他参数都会定义在模板文件中。如果我们对监控的服务进行分类的话,甚至可以只写两行。我们来看看模板文件中的内容:

  1. [root@nagios objects]# vim templates.cfg
  2. define service{
  3. name generic-service # 这就是服务的模板
  4. active_checks_enabled 1
  5. passive_checks_enabled 1
  6. parallelize_check 1
  7. obsess_over_service 1
  8. check_freshness 0
  9. notifications_enabled 1
  10. event_handler_enabled 1
  11. flap_detection_enabled 1
  12. failure_prediction_enabled 1
  13. process_perf_data 1
  14. retain_status_information 1
  15. retain_nonstatus_information 1
  16. is_volatile 0
  17. check_period 24x7
  18. max_check_attempts 3
  19. normal_check_interval 10
  20. retry_check_interval 2
  21. contact_groups admins
  22. notification_options w,u,c,r
  23. notification_interval 60
  24. notification_period 24x7
  25. register 0
  26. }

1.9.2 监控周期模板

查看监控周期timeperiods.cfg文件:

  1. define timeperiod{
  2. timeperiod_name 24x7 # 24x7只是一个名字而已,真正的时间在下面定义
  3. alias 24 Hours A Day, 7 Days A Week
  4. sunday 00:00-24:00
  5. monday 00:00-24:00
  6. tuesday 00:00-24:00
  7. wednesday 00:00-24:00
  8. thursday 00:00-24:00
  9. friday 00:00-24:00
  10. saturday 00:00-24:00
  11. }
  12. # 'workhours' timeperiod definition
  13. define timeperiod{
  14. timeperiod_name workhours # 这是工作时间的,老外真爽
  15. alias Normal Work Hours
  16. monday 09:00-17:00
  17. tuesday 09:00-17:00
  18. wednesday 09:00-17:00
  19. thursday 09:00-17:00
  20. friday 09:00-17:00
  21. }

workhours用于监控磁盘的报警,也就是说磁盘的监控是7x24小时的,但是报警时间一般为8点到23点。

1.9.3 联系人模板

模板文件名为contacts.cfg,记录报警信息发送的对象:

  1. [root@nagios objects]# vim contacts.cfg
  2. define contact{
  3. contact_name nagiosadmin # 联系人的名字
  4. use generic-contact # 使用的模板
  5. alias Nagios Admin
  6. email nagios@localhost
  7. }
  8. define contactgroup{ # 联系人组
  9. contactgroup_name admins # 可以向这个组内的所有成员报警
  10. alias Nagios Administrators
  11. members nagiosadmin # 组中的成员
  12. }

# 可以添加一个运维组,将所有运维人员都添加到该组中;还可以添加一个老大的邮箱,当某些报警信息不希望老大收到时就不把他写上去。

1.10 报警的过程

  1. templates.cfg
  2. [root@nagios objects]# cat templates.cfg
  3. define contact{
  4. name generic-contact # 这是联系人的模板
  5. service_notification_period 24x7
  6. host_notification_period 24x7
  7. service_notification_options w,u,c,r,f,s
  8. host_notification_options d,u,r,f,s
  9. service_notification_commands notify-service-by-email # 这是服务发送Email的命令,在command.cfg中定义
  10. host_notification_commands notify-host-by-email # 这是主机报警的命令,同上
  11. register 0
  12. }
  13. contacts.cfg
  14. [root@nagios objects]# vim contacts.cfg
  15. define contact{
  16. contact_name nagiosadmin
  17. use generic-contact # 联系人模板从这里引用
  18. alias Nagios Admin
  19. email nagios@localhost
  20. }
  21. commands.cfg
  22. [root@nagios objects]# vim commands.cfg
  23. # 'notify-host-by-email' command definition
  24. define command{
  25. command_name notify-host-by-email # 主机报警的命令,最终调用的是系统的mail命令
  26. command_line /usr/bin/printf "%b" "***** Nagios *****\n\nNotification Type: $NOTIFICATIONTYPE$\nHost: $HOSTNAME$\nState: $HOSTSTATE$\nAddress: $HOSTADDRESS$\nInfo: $HOSTOUTPUT$\n\nDate/Time: $LONGDATETIME$\n" | /bin/mail -s "** $NOTIFICATIONTYPE$ Host Alert: $HOSTNAME$ is $HOSTSTATE$ **" $CONTACTEMAIL$
  27. }
  28. # 'notify-service-by-email' command definition
  29. define command{
  30. command_name notify-service-by-email # 服务报警的命令
  31. command_line /usr/bin/printf "%b" "***** Nagios *****\n\nNotification Type: $NOTIFICATIONTYPE$\n\nService: $SERVICEDESC$\nHost: $HOSTALIAS$\nAddress: $HOSTADDRESS$\nState: $SERVICESTATE$\n\nDate/Time: $LONGDATETIME$\n\nAdditional Info:\n\n$SERVICEOUTPUT$\n" | /bin/mail -s "** $NOTIFICATIONTYPE$ Service Alert: $HOSTALIAS$/$SERVICEDESC$ is $SERVICESTATE$ **" $CONTACTEMAIL$
  32. }

1.png-210.3kB

1.11 自定义开发插件

自定义插件可以使用任意语言开发,只要能在命令行给出结果,就能够使用Nagios监控。什么是插件呢?我们在前文安装的nagios-plugins-1.4.16.tar.gz,这个软件包就是Nagios的插件安装包,插件都安装…/nagios/libexec目录下。只所以使用自定义插件的原因有: 
(1) Nagios自带的插件满足不了需要; 
(2) 由于插件是我们写的,因此它有哪些缺点和BUG我们都清楚。

写自定义插件的规则: 
(1) 插件要有一个退出状态码,它用于被Nagios主程序作为判断被监控系统服务状态的依据; 
(2) 插件在控制台打印的第一行数据,该数据可以被Nagios主程序作为被监控系统服务状态的补充说明,会显示在管理界面。 
1.png-17.1kB

Nagios主程序可识别的状态码和说明如下: 
OK:退出状态码0,表示服务正常工作; 
WARNING:退出状态码1,表示服务处于警告状态; 
CRITICAL:退出状态码2,表示服务处于严重状态; 
UNKNOWN:退出状态码3,表示服务处于未知状态。 
状态码定义的方法可以在libexec目录下执行head -7 utils.sh

  1. [root@nagios libexec]# head -7 utils.sh
  2. #! /bin/sh
  3. STATE_OK=0
  4. STATE_WARNING=1
  5. STATE_CRITICAL=2
  6. STATE_UNKNOWN=3
  7. STATE_DEPENDENT=4

不同语言的系统退出函数示例如下:

  • Java:System.exit(int status)
  • php:exit(status)
  • python:sys.exit(int status)
  • C/C++:return int status
  • bash:exit int status

不同语言打印第一行数据:

  • Java:System.out.println(String msg)
  • php:echo msg
  • python:printf msg
  • C/C++:printf(“%s”,msg)
  • bash:echo msg(printf)

使用shell开发第一个插件,监控passwd文件的变化: 
# 先写脚本

  1. [root@client1 ~]# md5sum /etc/passwd >/etc/oldboy.md5
  2. [root@client1 ~]# cd /usr/local/nagios/libexec/
  3. [root@client1 libexec]# vim check_passwd
  4. #!/bin/bash
  5. char=`md5sum -c /etc/oldboy.md5|grep "OK"|wc -l`
  6. if [ $char -eq 1 ];then
  7. echo "passwd is ok"
  8. exit 0
  9. else
  10. echo "passwd is changed"
  11. exit 2
  12. fi
  13. [root@client1 libexec]# chmod +x check_passwd

# 添加到监控,只能使用被动监控

  1. [root@client1 ~]# echo "command[check_passwd]=/usr/local/nagios/libexec/check_passwd" >>/usr/local/nagios/etc/nrpe.cfg
  2. [root@client1 libexec]# pkill nrpe
  3. [root@client1 libexec]# ps aux|grep nrpe
  4. [root@client1 libexec]# /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
  5. [root@nagios nagios]# ./libexec/check_nrpe -H 10.0.0.2 -c check_passwd # 在服务器端先测试
  6. [root@nagios nagios]# vim etc/objects/services.cfg # 在服务端配置
  7. define service {
  8. use generic-service
  9. host_name 02-client1
  10. service_description passwd
  11. check_command check_nrpe!check_passwd
  12. }
  13. [root@nagios nagios]# /etc/init.d/nagios checkconfig
  14. [root@nagios nagios]# /etc/init.d/nagios reload

# 最终结果: 
2.png-2.7kB

1.12 图形显示和管理

虽然能显示能报警,但是企业工作中需要一个历史趋势图。Nagios本身只是实现了核心功能,因此它不具备出图的能力,和Nagios配合出图的工具有很多,但是最好的还是pnp。想要使用pnp出图,但是也需要其他软件的支持。我们先安装图形显示管理的依赖库:

  1. [root@nagios ~]# yum install -y cairo pango zlib zlib-devel freetype freetype-devel gd gd-devel

1.12.1 安装软件

pnp出图实际上是利用rrdtool(轮询的数据库工具)这个软件,但是安装之前我们先安装rrdtool的依赖库。我们可以使用yum install libart_lgpl libart_lgpl-devel安装,这里我们使用编译安装的方式(软件包中都有):

  1. tar xf libart_lgpl-2.3.17.tar.gz
  2. cd libart_lgpl-2.3.17
  3. ./configure
  4. make && make install
  5. cp -r /usr/local/include/libart-2.0/ /usr/include/
  6. cd ..

安装rrdtools,rrdtools是真正画图的软件,这个工具虽然冷门,但是很多软件的画图都是靠它:

  1. tar xf rrdtool-1.2.14.tar.gz
  2. cd rrdtool-1.2.14
  3. ./configure --prefix=/usr/local/rrdtool --disable-python --disable-tcl
  4. make && make install
  5. cd ..
  6. ll /usr/local/rrdtool/bin/ # 3个程序

现在才是真正的安装pnp,pnp的作用就是收集数据然后告诉rrdtool,然后rrdtool画完图后还要通过pnp进行展示

  1. tar xf pnp-0.4.14.tar.gz
  2. cd pnp-0.4.14
  3. ./configure \
  4. --with-rrdtool=/usr/local/rrdtool/bin/rrdtool \ # 画图的命令
  5. --with-perfdata-dir=/usr/local/nagios/share/perfdata # 出图的路径
  6. make all
  7. make install
  8. make install-config
  9. make install-init
  10. ll /usr/local/nagios/libexec/|grep process

# configure出现WARNING不用理会

1.12.2 修改配置

软件都准备好了,接下来要做的就是编辑主配置文件

  1. cd /usr/local/nagios/etc/
  2. cp nagios.cfg nagios.cfg.bak
  3. sed -ri 's@(^pro.*=).*@\11@g' nagios.cfg
  4. sed -ri 's@^#(host_perfdata_c.*)@\1@g' nagios.cfg
  5. sed -ri 's@^#(service_perfdata_c.*)@\1@g' nagios.cfg

# 这是修改后的内容

  1. process_performance_data=1
  2. host_perfdata_command=process-host-perfdata
  3. service_perfdata_command=process-service-perfdata

修改commands.cfg文件: 
# 将这两段内容删除:

  1. # 'process-host-perfdata' command definition
  2. define command{
  3. command_name process-host-perfdata
  4. command_line /usr/bin/printf "%b" "$LASTHOSTCHECK$\t$HOSTNAME$\t$HOSTSTATE$\t$HOSTATTEMPT$\t$HOSTSTATETYPE$\t$HOSTEXECUTIONTIME$\t$HOSTOUTPUT$\t$HOSTPERFDATA$\n" >> /usr/local/nagios/var/host-perfdata.out
  5. }
  6. # 'process-service-perfdata' command definition
  7. define command{
  8. command_name process-service-perfdata
  9. command_line /usr/bin/printf "%b" "$LASTSERVICECHECK$\t$HOSTNAME$\t$SERVICEDESC$\t$SERVICESTATE$\t$SERVICEATTEMPT$\t$SERVICESTATETYPE$\t$SERVICEEXECUTIONTIME$\t$SERVICELATENCY$\t$SERVICEOUTPUT$\t$SERVICEPERFDATA$\n" >> /usr/local/nagios/var/service-perfdata.out
  10. }

# 替换成:

  1. # 'process-host-perfdata' command definition
  2. define command{
  3. command_name process-host-perfdata
  4. command_line /usr/local/nagios/libexec/process_perfdata.pl # 其实就是该这一行
  5. }
  6. # 'process-service-perfdata' command definition
  7. define command{
  8. command_name process-service-perfdata
  9. command_line /usr/local/nagios/libexec/process_perfdata.pl
  10. }

/usr/local/nagios/libexec可以用$USER1$进行替换 
重载配置文件后访问10.0.0.1/nagios/pnp/index.php,出现以下界面表示安装成功:

  1. /etc/init.d/nagios checkconfig
  2. /etc/init.d/nagios reload

3.png-101.5kB

只要等一会,图上就有数据显示了,只所以会有数据出现在图上,是因为模板配置文件中一个参数决定的:

  1. [root@nagios etc]# vim objects/templates.cfg
  2. define service{
  3. name generic-service
  4. active_checks_enabled 1
  5. passive_checks_enabled 1
  6. parallelize_check 1
  7. obsess_over_service 1
  8. check_freshness 0
  9. notifications_enabled 1
  10. event_handler_enabled 1
  11. flap_detection_enabled 1
  12. failure_prediction_enabled 1
  13. process_perf_data 1 # 就是这个参数

1.12.3 将二者结合

目前监控和趋势图二者是分离的,我们现在要将它们结合起来。

在主机监控中整合:

  1. [root@nagios objects]# vim hosts.cfg
  2. define host{
  3. use linux-server
  4. host_name 02-client1
  5. alia 02-client1
  6. address 10.0.0.2
  7. action_url /nagios/pnp/index.php?host=$HOSTNAME$ # 增加这一行,定义URL
  8. }

# 在模板中添加更省事 
重载配置文件后访问10.0.0.1/nagios,可以看到多了一个按钮,点进去就是该主机所有的趋势图了: 
4.png-11kB

服务出图:

  1. [root@nagios objects]# vim services.cfg
  2. define service {
  3. use generic-service
  4. host_name 02-client1,01-nagios
  5. service_description Disk Partition
  6. check_command check_nrpe!check_disk
  7. action_url /nagios/pnp/index.php?host=$HOSTNAME$&srv=$SERVICEDESC$ # 增加一行
  8. }

# 同样可以写在模板中 
5.png-34.7kB

1.13 报警

  1. 邮件报警:这是必须会的,生产环境中应尽量使用自己公司的信箱作为报警信箱,或者建立一个邮箱组(邮件列表)。尽量不用非公司信箱作为报警信箱,如126、qq等,因为这些信箱是免费的,对报警的频率等会有限制,很有可能会拒收或当成垃圾邮件,导致报警延时或无法收到。适用于重要且不紧急的业务报警;
  2. 邮件转短信报警:收到邮件会短信提醒,就相当于短信报警的功能。这是由邮箱提供商提供的一个功能,但报警内容长度有限制;
  3. http短信网关:有专门的公司提供直接发送信息到手机的短信网关,常用的报警就是一个URL地址携带信息,收短信费。这是推荐的报警方式;
  4. 购买短信猫:类似于手机终端一样的客户端硬件设备,早期报警选用的方式,收短信费;
  5. 电话语音报警:先将报警语音录下来,报警时直接打电话到报警负责人,播放报警语音;也可以用语音识别软件,将文字识别为语音;
  6. QQ/微信:模拟QQ,微信发信息的功能,QQ不太稳定;微信实际上就是将微信和邮箱绑定,当邮箱收到邮件时,微信会提醒

在生产环境中,一般会根据业务的紧急程度不同,多个报警策略结合使用。对于不需要紧急处理的业务一般选择邮件报警,如内存、磁盘空间的剩余率;对于重要且紧急的业务,会使用邮件加上短信同时报警。使用邮件报警便于记录故障详细信息,短息报警时及时提醒,优点是及时。短信报警的缺点是报警内容有限,所以在工作中如果接到严重报警时,我们紧急处理之前也会开启邮件系统先查看邮件细节。

其中http短信网关是老男孩老师最优先推荐使用的短信报警方式,原因: 
(1) 简单、易用; 
(2) 稳定、可靠; 
(3) 收费合理,类似个人手机一样,收取发送费用。

老男孩老师的思想:花一定的费用把业务做到最好是正常工作的思维,如果总想着免费,那么如果业务报警收不到,损失可能会更大。

1.13.1 报警分级

A类:磁盘空间、cpu、内存报警等为一般报警,运维内部采取常规处理方式; 
B类:网站域名不能打开为严重报警,需协调技术部相关人员会诊处理。 
若收到A类报警,原则上限制处理时间,但以不影响服务为前提,进行即使处理;或收到B类报警短信,值班人员需在10分钟内邮件周知运维全体同事及相关技术人员,并解决。纯值班人员可能没有处理权限,只能电话及邮件周知运维人员,有的公司根据业务分配好报警的人。

1.13.2 配置报警

配置报警就是配置contacts.cfg文件。可以将公司所有的运维人员都加入到这个文件中,如果有需要还可以分组。

配置报警的步骤: 
(1) 添加联系人及联系组contacts.cfg

  1. define contact{
  2. contact_name oldboy-pager
  3. use generic-contact
  4. alias Nagios users
  5. email 18901398229
  6. }

(2) 添加报警的命令commands.cfg

  1. define command {
  2. command_name notify-host-by-pager
  3. command_line $USER1$/sms_send "$HOSTSTATE$ alert for $HOSTNAME$" $CONTACTOAGER$
  4. }
  5. define command {
  6. command_name notify-service-by-pager
  7. command_line $USER1$/sms_send "$HOSTALIAS$/$SERVICEDESC$ is $SERVICESTATE$" $CONTACTOAGER$
  8. }

(3) 调整联系人模板,添加报警的命令(来自于commands.cfg):

  1. define contact{
  2. name generic-contact
  3. service_notification_period 24x7
  4. host_notification_period 24x7
  5. service_notification_options w,u,c,r,f,s
  6. host_notification_options d,u,r,f,s
  7. service_notification_commands notify-service-by-email,notify-service-by-pager
  8. host_notification_commands notify-host-by-email,notify-host-by-pager
  9. register 0
  10. }

(4) 在hosts.cfgservice.cfg配置文件中添加报警联系人及组,或者在模板中添加

  1. contact_groups admins,group1,group2,user1

总结:总体来说nagios还是不错的一款监控软件,但是相比zabbix 就没有zabbix那样配置简单。只需要在图形化界面点点就可以完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/575978.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SSH 配置

SSH 批量管理 SSH介绍 SSH是Secure Shell Protocol的简写&#xff0c;由IETF网络工作小组&#xff08;Network working Group&#xff09;指定&#xff1b;在进行数据传输之前&#xff0c;SSH先对联机数据包通过加密技术进行加密处理&#xff0c;加密后在进行数据传输。确保了传…

服务器重启导致无法启动MySQL

今天服务器受到DDOS攻击&#xff0c;笔者脑残重启了一下服务器。结果造成MySQL服务器无法启动mysql日志见下图。160803 17:43:47 mysqld_safe Starting mysqld daemon with databases from /application/mysql/data160803 17:43:47 [Note] /application/mysql/bin/mysqld (mysq…

架构师之DNS实战

架构师 DNS实战 老男孩教育 DNS简介 1. DNS的出现及演化 网络出现的早起是使用IP地址通讯的&#xff0c;那是就几台主机通讯。但是随着接入网络主机的增多&#xff0c;这种数字标识的地址非常不便于记忆&#xff0c;UNIX上就出现了建立一个叫做hosts的文件&#xff08;Linux和W…

打包jar文件后的spring部署及hibernate自动建表经验总结

楔子 用springhibernate做一个服务器运行程序&#xff0c;在部署到服务器时&#xff08;打包成jar&#xff0c;在window server2008下运行&#xff09;&#xff0c;出现了以下两个纠结问题&#xff1a; 1. 加载不了Spring容器 2. hibernate.hbm2ddl.auto 到了服务器不能自动建表…

我是一个线程 [转]

我是一个线程&#xff0c;我一出生就被编了个号&#xff1a;0x3704&#xff0c;然后被领到一个昏暗的屋子里&#xff0c;在这里我发现了很多和我一模一样的同伴。 我身边的同伴0x6900 待的时间比较长&#xff0c;他带着沧桑的口气对我说&#xff1a;“我们线程的宿命就是处理包…

自动化运维之–Cobbler

Cobbler 自动化 Cobbler简介 Cobbler是一个快速网络安装linux的服务&#xff0c;而且在经过调整也可以支持网络安装windows。该工具使用python开发&#xff0c;小巧轻便&#xff08;才15k行python代码&#xff09;&#xff0c;使用简单的命令即可完成PXE网络安装环境的配置&…

开源jumpserver 堡垒机搭建

一、环境 CentOS 6.x x86_64 mini service iptables stop 关闭SELinux的方法&#xff1a; 修改/etc/selinux/config文件中的SELINUX”” 为 disabled &#xff0c;然后重启。 如果不想重启系统&#xff0c;使用命令setenforce 0 1.指定yum源 wget -O /etc/yum.repos.d/e…

Shell 变量及函数讲解 [2]

Shell 变量的输入 Shell变量除了可以直接赋值或脚本传参外&#xff0c;还可以使用read命令从标准输入获得&#xff0c;read为bash内置命令&#xff0c;可以通过help read查看帮助【语法格式】read [参数] [变量名]【常用参数】-p prompt&#xff1a;设置提示信息-t timeout&…

java大作业私人管家系统_重庆管家婆软件丨管家婆工贸PRO的E-MES管理详解

其实&#xff0c;ERP和MES在制造操作中扮演着独立而又互补的角色。ERP能将企业所有方面的数据进行实时、可用的全面集成&#xff0c;为管理决策提供高效、准确的业务决策支持;MES则能加强MRP计划的执行&#xff0c;把MRP计划同车间作业现场控制通过执行系统联系起来。这些“现场…

监控体系 [精]

监控体系 zabbix 监控对象&#xff1a;     1. 监控对象的理解&#xff1a;CPU是怎么工作的&#xff0c;原理     2. 监控对象的指标&#xff1a;CPU使用率 CPU负载 CPU个数 上下文切换     3. 确定性能基准线&#xff1a;怎么样才算故障&#xff1f;CPU负载多…

vs 设置起始页不见了_发朋友圈屏蔽爸妈,结果不小心设置成了仅家人可见...场面一发不可收拾哈哈哈哈!...

一提到爸妈的朋友圈&#xff0c;就会想到养生鸡汤&#xff0c;中老年流量谣言&#xff0c;土味表情包而出于保护个人隐私拒绝被爸妈误解而遭受灵魂拷问的考虑很多人选择了两全其美的分组法给家人看到阳光可爱正能量的一面沙雕的一面只展现给沙雕网友们可如果不小心把屏蔽的内容…

KVM 安装

KVM介绍 Kernel-based Virtual Machine的简称&#xff0c;是一个开源的系统虚拟化模块&#xff0c;自Linux 2.6.20之后集成在Linux的各个主要发行版本中。它使用Linux自身的调度器进行管理&#xff0c;所以相对于Xen&#xff0c;其核心源码很少。KVM目前已成为学术界的主流VMM之…

彼聆智能语音机器人_电销行业的人工智能:智能语音电话机器人

随着人工智能的发展&#xff0c;越来越多的机器人出现在我们的日常生活中&#xff0c;用于电话营销公司的自动打电话机器人、快递公司用来送快递的机器人、餐厅里用来上菜的机器人&#xff0c;最近更是有一款会后空翻的机器人。机器人正活跃在各行各业中&#xff0c;代替人类去…

Shell 基础介绍 [1]

本文目录1.什么是Shell&#xff1f;2.脚本语言类型3.其他常用的脚本语句种类4.Shell脚本的建立和执行5.Shell 变量类型6.普通变量7.Shell 特殊重要变量8.Shell进程状态变量9.Parameter Expansion10.扩展&#xff1a;其他变量的替换11.变量的数值&#xff08;整数&#xff09;计…

c++创建二叉树_数据结构:查找(4)|| 平衡二叉树

在介绍平衡二叉树之前&#xff0c;应该先了解平衡因子的概念&#xff0c;平衡因子定义为左子树深度减去右子树深度&#xff0c;这个值的绝对值越大&#xff0c;非常容易理解它就对应着越不平衡的情况。一棵平衡的二叉树的平衡因子只能是1&#xff0c;0&#xff0c;-1如何构建一…

华睿相机sdk 开发_索尼发布相机远程操作SDK(软件开发工具包)

索尼从2020年12月9日开始&#xff0c;向开发者免费提供针对索尼数码相机的软件开发工具包“ Camera Remote SDK” 1.03版。“ Camera Remote SDK”开发的软件可以远程更改相机设置、并执行诸如快门释放&#xff0c;实时取景监视(如取景和对焦)之类的操作。支持的操作系统包括Wi…

Linux 字体颜色设置

本文主要介绍Linux 字体颜色的调整&#xff0c;常用于shell脚本当中。我们举一个例子&#xff1a;echo-e"\033[44;37;5m ME \033[0m COOL" 以上命令设置背景成为蓝色&#xff0c;前景白色&#xff0c;闪烁光标&#xff0c;输出字符“ME”&#xff0c;然后重新设置屏幕…

利用Unity实现AOP

.NET程序中&#xff0c;可以利用Unity来实现AOP&#xff0c;用来进行日志、缓存或权限的处理。这里我们来写一个简单的程序&#xff0c;让其实现简单的AOP功能。 1.使用NuGet&#xff0c;在项目中获取Microsoft.Practices.Unity。 2.新建一个ITalk类及其实现 public interface …

javascript数组的各种操作

用 js有非常久了&#xff0c;但都没有深究过js的数组形式。偶尔用用也就是简单的string.split(char)。这段时间做的一个项目&#xff0c;用到数组的地方非常多&#xff0c;自以为js高手的自己竟然无从下手&#xff0c;一下狠心&#xff0c;我学&#xff01;呵呵。学了之后才知道…

老男孩Shell企业面试题30道 [答案]

老男孩Shell企业面试题 shell 2016年9月7日 本文来自于老男孩教育,未经本人同意&#xff0c;禁止转载&#xff01;否则追究法律责任。 原文&#xff1a;http://oldboy.blog.51cto.com/2561410/1632876 企业面试题1&#xff1a; &#xff08;生产实战案例&#xff09;&#x…