nagios和DELL OMSA配合可以实现对dell 服务器硬件的监控 ,OMSA是Openmanage Server Administrator 的缩写 。OMSA由以下几个组件组成:

1srvadmin-base: Install only base OMSA, no web server
2srvadmin-webserver: Install Web Interface
3srvadmin-storageservices: Install RAID Management
4srvadmin-rac4: Install components to manage the Dell Remote Access Card 4
5srvadmin-rac5: Install components to manage the Dell Remote Access Card 5

以上组件可以根据需要单独装,也可以通过安装srvadmin-all (Install all OMSA components)全部安装 具体参看 DELL wiki 页

一、OMSA的安装及使用

DELL 针对redhat/centos等使用yum源的server做的有单独的yum源安装 。具体可以通过以下命令新增OMSA源安装所有组件:

1wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash
2yum install srvadmin-all

具体请参看 最新DELL OMSA源及安装方法

默认安装好的组件位置位于/opt/dell/srvadmin目录 。按如下操作,启动srvadmin services:

1cd /opt/dell/srvadmin/sbin/
2sh srvadmin-services.sh start

只有首次安装完后,需要执行此操作,以后重启的机器时,会自动启用srvadmin服务,因为其在/etc/init.d目录下有三个服务:dsm_om_connsvcd、dsm_om_shrsvcd、dsm_sa_datamgrd 。

启动完该服务后,可以通过https://本机IP:1311 打开DELL OMSA页面,其中登陆用户名密码是系统用户和密码 。

omsa1

omsa2

进入查看固件版本,可能会提示“固件版本过时” ,固件版本过时会造成check_openmanage nagios 插件检测时会有类似如下的提示:

1Controller 0 [PERC 6/i Integrated]: Firmware '6.0.2-0002' is out of date

所以,安装完后,最好还要保持固件是最新的,升级固件的方法是:

1yum install dell_ft_install
2yum install $(bootstrap_firmware)
3update_firmware --yes

注:以上操作的前提是先增加dell yum 源 ,另外升级完固件需要重新服务器生效

二、check_openmanage的安装及使用

check_openmanage只是一个perl的脚本,其使用的还是OMSA内部的命令和xsl模块。使用check_openmanage时,必须要安装 srvadmin-all,不然会报xsl not find 。check_openmanage 插件主页及说明

1、check_openmanage下载:

1wget http://folk.uio.no/trondham/software/check_openmanage-3.7.11/check_openmanage 或
2wget http://folk.uio.no/trondham/software/files/check_openmanage-3.7.11.tar.gz

注:两个文件的区别是,第一个下载的是单个perl文件,直接放到nagios的libexec目录就可以用;第二个下载的包含了windows 和 linux下用的版本,并且包含pnp4nagios模板 。

2、check_openmanage的使用

 1#默认用法
 2root@361way:[/usr/local/nagios/libexec]./check_openmanage  --only fans
 3FANS OK - 4 fan probes checked
 4#带输出数据的检测,主要配合pnp4nagios出图
 5root@361way:[/usr/local/nagios/libexec]./check_openmanage  --only fans -p
 6FANS OK - 4 fan probes checked|F0_System_Board_FAN_1=6750rpm;0;0 F1_System_Board_FAN_2=6600rpm;0;0 F2_System_Board_FAN_3=6450rpm;0;0 F3_System_Board_FAN_4=6750rpm;0;0
 7#debug 模式,输出详细信息
 8root@361way:[/usr/local/nagios/libexec]./check_openmanage  --only fans -d
 9   System:      PowerEdge 2950 III       OMSA version:    7.3.0
10   ServiceTag:  JF91G2X                  Plugin version:  3.7.11
11   BIOS/date:   2.7.0 10/30/2010         Checking mode:   local
12-----------------------------------------------------------------------------
13   Chassis Components
14=============================================================================
15  STATE  |  ID  |  MESSAGE TEXT
16---------+------+------------------------------------------------------------
17      OK |    0 | Chassis fan 0 [System Board FAN 1 RPM] reading: 6675 RPM
18      OK |    1 | Chassis fan 1 [System Board FAN 2 RPM] reading: 6600 RPM
19      OK |    2 | Chassis fan 2 [System Board FAN 3 RPM] reading: 6450 RPM
20      OK |    3 | Chassis fan 3 [System Board FAN 4 RPM] reading: 6750 RPM

only后可以跟的检测项有:cpu、memory、storage、fans、batteries、voltage(电压)、temp、power等,像温度和转速之类的有默认告警值,可以在检测时通过-c -w 重新定义。想检测所有项可以使用:

1root@361way:[/usr/local/nagios/libexec]./check_openmanage -b ctrl_fw=ALL/ctrl_driver=ALL -p
2OK - System: 'PowerEdge 2950 III', SN: 'JF91G2X', 8 GB ram (8 dimms), 1 logical drives, 5 physical drives|T0_System_Board_Ambient=25C;42;47 F0_System_Board_FAN_1=6750rpm;0;0 F1_System_Board_FAN_2=6600rpm;0;0 F2_System_Board_FAN_3=6450rpm;0;0 F3_System_Board_FAN_4=6825rpm;0;0

pnp4nagios check_openmanage监控图

三、check_openmaage 配合nagios监控

nagios可以通过nrpe、snmp两种方式对DELL 主机进行监控,具体原理图如下:

check_openmanage01

关于nagios的配置这里就不多说,无非先定义command,然后在cfg文件中配置监控内容,配置完成后,重启进程使配置生效 。需要特别注意的是无论是nrpe还是snmp方式,被监控主机都必须安装后OMSA 程序 。