一. 自定义nagios监控脚本


1. 在客户端上创建脚本/usr/local/nagios/libexec/check_disk.sh

vim /usr/local/nagios/libexec/check_disk.sh 写入如下内容:(client上)


#!/bin/bash

row=`df -h |wc -l` #输出的总行数

for i in `seq 2 $row` #从第二行开始为真实的磁盘,因为第一行为抬头信息

do

ava=`df -h |sed -n "$i"p|awk '{print $4}'` #有效空间

u_per=`df -h |sed -n "$i"p|sed -n "s/\%//"p|awk '{print $5}'` #去掉%的使用率

p_p=`df -h -P|sed -n "$i"p|awk '{print $6}'` #挂载点

if [ "$u_per" -gt "97" ];then

echo -n "$p_p CRITICAL $u_per% $ava "

sta[$i]=2 #大于97,赋予返回值2并显示一些信息

elif [ "$u_per" -gt "95" ];then

echo -n "$p_p WARNING! $u_per% $ava "

sta[$i]=1

else

echo -n "$p_p OK $u_per% $ava "

sta[$i]=0

fi

done

n=0

for j in `seq 2 $row` #找出最大值,

do

if [ "${sta[$j]}" -gt $n ];then

n=${sta[$j]}

fi

done

exit $n

##exit 2 表示这个程序退出后,它的返回值是2。

可以理解为这个程序死了,它的遗言是2,告诉别人自己是因为什么原因死掉的。这样法医(shell或它的父进程)就可以知道原因,来判断凶手(程序出错)是谁,从而作进一步的处理。


2. 保存后,修改该脚本的权限

chmod +x /usr/lib/nagios/plugins/check_disk.sh (client上)

3. 然后编辑/etc/nagios/nrpe.cfg文件

vim /etc/nagios/nrpe.cfg # 加入一行:(client上)

command[check_disk]=/usr/lib/nagios/plugins/check_disk.sh

保存,重启nrpe服务

/etc/init.d/nrpe restart (client上)

4. 检测刚才的脚本是否正常运行的方法是,到server端执行如下命令:

/usr/lib/nagios/plugins/check_nrpe -H 192.168.0.12 -c check_disk (server上)

如果正常的话,会输出一行磁盘检测的数据,否则可能会报错。

5. 到server上添加相应的service

cd /etc/nagios/conf.d/

vim 192.168.0.12.cfg # 加入如下内容:

define service{

use generic-service

host_name 192.168.0.12

service_description check_disk

check_command check_nrpe!check_disk

max_check_attempts 5

normal_check_interval 1

}

6. 重启nagios服务

/etc/init.d/nagios restart (server上)