Zabbix 模板
Zabbix操作系统监控模板 AIX
分享到:

Zabbix操作系统监控模板 AIX

通过Zabbix Agent进行设备纳管
监控指标主要包含CPU、内存、文件分区、磁盘IO、网络接口、进程等
支持的Zabbix版本:5.0以上版本
支持的AIX版本:5.3、6.X、7.X
模板介绍
支持的Zabbix版本 5.0及以上 监控纳管模式 Agent主动模式


1     AIX模板概述

本文档适用于监控操作系统AIX,AIX是通过Zabbix Agent进行设备纳管,监控指标主要包含CPU、内存、文件分区、磁盘IO、网络接口、进程等。

支持的Zabbix版本:5.0以上版本

支持的AIX版本:5.3、6.*、7.*

监控模板下载:主模板_操作系统_AIX_主动.xml


AIX监控模版-1.png

2     模板详情

2.1   模板宏

2.2   监控指标

指标组

监控指标项

Item名称

Item键值

触发器

ICMP

ICMP   ping状态

ICMP   ping状态

icmpping[,2,,,]

[主机]{HOST.NAME}失联,持续3分钟未响应,系统可能宕机

ICMP   丢包率

ICMP   丢包率

icmppingloss


ICMP   请求时长

ICMP   请求时长

icmppingsec


LVM

空间使用大小

AIX_PV的{#PV_NAME}空间使用大小

aix_lvm_get[pv_get,{#PV_NAME},'USED PPs']


空间使用率

AIX_PV的{#PV_NAME}空间使用率

PV_USED_RATE[{#PV_NAME}]


空间剩余大小

AIX_PV的{#PV_NAME}空间剩余大小

aix_lvm_get[pv_get,{#PV_NAME},'FREE PPs']


空间总体大小

AIX_PV的{#PV_NAME}空间总体大小

aix_lvm_get[pv_get,{#PV_NAME},'TOTAL PPs']


空间使用大小

AIX_VG的{#VG_NAME}空间使用大小

aix_lvm_get[vg_get,{#VG_NAME},'USED PPs']


空间使用率

AIX_VG的{#VG_NAME}空间使用率

VG_USED_RATE[{#VG_NAME}]


空间剩余大小

AIX_VG的{#VG_NAME}空间剩余大小

aix_lvm_get[vg_get,{#VG_NAME},'FREE PPs']


空间总体大小

AIX_VG的{#VG_NAME}空间总体大小

aix_lvm_get[vg_get,{#VG_NAME},'TOTAL PPs']


NFS

NFS挂载情况

{#NFS_FILE_NAME}挂载情况

nfs_status[get_status,{#NFS_FILE_NAME}]

[主机]   {HOST.NAME}_AIX_NFS挂载目录{#NFS_FILE_NAME}

失败

EVENT

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在临时的人为错误事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在临时的未知错误事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在临时的硬件或介质故障事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在临时的软件故障事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在性能严重下降的人为错误事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在性能严重下降的未知错误事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在性能严重下降的硬件或介质故障事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在性能严重下降的软件故障事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在未知等级的人为错误事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在未知等级的未知错误事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在未知等级的硬件或介质故障事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在未知等级的软件故障事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在硬件设备或软件模块损坏的

人为错误事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在硬件设备或软件模块损坏的

未知错误事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在硬件设备或软件模块损坏的

硬件或介质故障事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在硬件设备或软件模块损坏的

软件故障事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在设备或功能组件可能丢失的

人为错误事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在设备或功能组件可能丢失的

未知错误事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在设备或功能组件可能丢失的

硬件或介质故障事件

系统事件

系统事件

system.run[errpt   && errpt -a]

[主机]{HOST.NAME}存在设备或功能组件可能丢失的

软件故障事件

MEM

内存分析

nmon

nmon_command


从分页空间中调出的页面

从分页空间中调出的页面

system.stat[page,pi]


剩余内存百分比

剩余内存百分比

nmon_memory[free]


剩余实际内存

剩余实际内存

system.stat[memory,fre]


可使用内存百分比

可使用内存百分比

vm.memory.size[pavailable]


可用内存

可用内存

vm.memory.size[available]


快速缓存内存百分比

快速缓存内存百分比

nmon_memory[numperm]


总内存

总内存

vm.memory.size[total]


文件修改或者页面换入每秒

文件修改或者页面换入每秒

system.stat[page,fi]


文件换出每秒

文件换出每秒

system.stat[page,fo]


活跃的虚拟页

活跃的虚拟页

system.stat[memory,avm]


物理内存使用率

物理内存使用率

vm.memory.size[Usage]

[主机]{HOST.NAME}物理内存使用率大于95%

系统内存+计算内存百分比

系统内存+计算内存百分比

nmon_memory

[主机][生产环境]{HOST.NAME} [系统内存+计算内存]

百分比大于95%

系统内存百分比

系统内存百分比

nmon_memory[system]


计算内存百分比

计算内存百分比

nmon_memory[process]


调出到分页空间的页面

调出到分页空间的页面

system.stat[page,po]


页面置换

页面置换

system.stat[page,fr]


页面置换算法扫描的页面

页面置换算法扫描的页面

system.stat[page,sr]


CPU

CPU总使用率

CPU总使用率

system.cpu.util[Usage]

[主机]{HOST.NAME}系统总CPU使用率大于80%

CPU总使用率

CPU总使用率

system.cpu.util[Usage]

[主机]{HOST.NAME}系统总CPU使用率大于95%

CPU消耗有权使用的容量

CPU消耗有权使用的容量

system.stat[cpu,ec]


CPU空闲时间

CPU空闲时间

system.stat[cpu,id]


CPU等待时间

CPU等待时间

system.stat[cpu,wa]

CPU等待持续10分钟超过25%

CPU等待时间

CPU等待时间

system.stat[cpu,wa]

CPU等待持续10分钟超过35%

CPU系统时间

CPU系统时间

system.stat[cpu,sy]

CPU系统占用持续10分钟超过30%

cpu核心数

cpu核心数

system.cpu.num[online]


共享池中的CPU可用物理处理器

共享池中的CPU可用物理处理器

system.stat[cpu,app]


处理器单位有权接收

处理器单位有权接收

system.stat[ent]


平均15分钟处理器负载

平均15分钟处理器负载

system_cpu_load_15


平均1分钟处理器负载

平均1分钟处理器负载

system_cpu_load_1


平均5分钟处理器负载

平均5分钟处理器负载

system_cpu_load_5


每秒上下文切换

每秒上下文切换

system.cpu.switches


每秒中断

每秒中断

system.cpu.intr


消耗物理处理器的CPU数量

消耗物理处理器的CPU数量

system.stat[cpu,pc]


用户CPU时间

用户CPU时间

system.stat[cpu,us]


逻辑CPU处理器利用率

逻辑CPU处理器利用率

system.stat[cpu,lbusy]


INFO

密码文件校验

密码文件校验

vfs.file.cksum[/etc/passwd]

[主机]   {HOST.NAME}/etc/passwd密码文件发生变更

登录用户的数量

登录用户的数量

system.users.num


主机名

主机名

system.hostname

[主机]{HOST.NAME}主机名发生改变

主机当地时间

主机当地时间

system.localtime


系统信息

系统信息

system.uname

[主机]{HOST.NAME}主机信息发生改变

系统发行版本

系统发行版本

system.run[uname   -auM]


系统启动时间

系统启动时间

system.boottime


系统正常运行时间

系统正常运行时间

system.uptime

[主机] {HOST.NAME} Agent   客户端无法正常采集数据

系统正常运行时间

系统正常运行时间

system.uptime

[主机]{HOST.NAME} 刚才发生重启

系统正常运行时间

系统正常运行时间

system.uptime

[主机]{HOST.NAME}的主动监控模式无法及时采集到数据

AGENT

Agent   版本

Agent   版本

agent.version

[主机]{HOST.NAME}上代理版本发生改变

Agent   主机名

Agent   主机名

agent.hostname

[主机]{HOST.NAME}代理主机名发生改变

agent   代理状态

agent   代理状态

agent.ping

[主机] {HOST.NAME} Agent   客户端无法正常采集数据

agent   代理状态

agent   代理状态

agent.ping

[主机] {HOST.NAME} Agent   客户端无法正常采集数据,

系统可能宕机

agent   代理状态

agent   代理状态

agent.ping

[主机]{HOST.NAME}失联,持续3分钟未响应,系统可能宕机

SWAP

交换队列的长度

交换队列的长度

system.stat[kthr,b]


内核线程上下文切换

内核线程上下文切换

system.stat[faults,cs]


系统调用

系统调用

system.stat[faults,sy]


设备中断

设备中断

system.stat[faults,in]


运行队列长度

运行队列长度

system.stat[kthr,r]


DISK

Number of transfers (数量的转移)

Number   of transfers (数量的转移)

system.stat[disk,tps]


inodes   使用磁盘空间百分比

{#FSNAME} inodes 使用磁盘空间百分比

vfs.fs.inode[{#FSNAME},pused]

[主机]{HOST.NAME}上{#FSNAME} inodes 分区磁盘空间

使用率高于95%

inodes   使用磁盘空间百分比

{#FSNAME} inodes 使用磁盘空间百分比

vfs.fs.inode[{#FSNAME},pused]

[主机]{HOST.NAME}上{#FSNAME} inodes 分区磁盘空间

使用率高于99%

inodes   剩余磁盘空间百分比

{#FSNAME} inodes 剩余磁盘空间百分比

vfs.fs.inode[{#FSNAME},pfree]


使用磁盘空间

{#FSNAME}   使用磁盘空间

vfs.fs.size[{#FSNAME},used]


使用磁盘空间百分比

{#FSNAME}   使用磁盘空间百分比

vfs.fs.size[{#FSNAME},pused]

[主机]{HOST.NAME}上{#FSNAME}分区磁盘空间使用率高于95%

使用磁盘空间百分比

{#FSNAME}   使用磁盘空间百分比

vfs.fs.size[{#FSNAME},pused]

[主机]{HOST.NAME}上{#FSNAME}分区磁盘空间使用率高于98%

剩余磁盘空间

{#FSNAME}   剩余磁盘空间

vfs.fs.size[{#FSNAME},free]


剩余磁盘空间百分比

{#FSNAME}   剩余磁盘空间百分比

vfs.fs.size[{#FSNAME},pfree]


总磁盘空间

{#FSNAME}   总磁盘空间

vfs.fs.size[{#FSNAME},total]


传输的数据量

传输的数据量

system.stat[disk,bps]


DISKIO

传送的次数

{#DISK_NAME}传送的次数

aix_disk_get[disk_get_tps,{#DISK_NAME}]


每秒传输量

{#DISK_NAME}每秒传输量

aix_disk_get[disk_get_kps,{#DISK_NAME}]


每秒写入量

{#DISK_NAME}每秒写入量

aix_disk_get[disk_get_kb_wrtn,{#DISK_NAME}]


每秒读取量

{#DISK_NAME}每秒读取量

aix_disk_get[disk_get_kb_read,{#DISK_NAME}]


活动所占时间的百分比

{#DISK_NAME}活动所占时间的百分比

aix_disk_get[disk_get_tm_act,{#DISK_NAME}]


磁盘每秒总写字节数

磁盘每秒总写字节数

vfs.dev.write[,bytes]


磁盘每秒总写操作数

磁盘每秒总写操作数

vfs.dev.write[,operations]


磁盘每秒总读写操作数

磁盘每秒总读写操作数

vfs.dev.readwrite.operations


磁盘每秒总读字节数

磁盘每秒总读字节数

vfs.dev.read[,bytes]


磁盘每秒总读操作数

磁盘每秒总读操作数

vfs.dev.read[,operations]


NET

网卡每秒发送速率

{#IFNAME}   网卡每秒发送速率

net.if.out[{#IFNAME}]


网卡每秒接收速率

{#IFNAME}   网卡每秒接收速率

net.if.in[{#IFNAME}]


PROC

系统进程列表

系统进程列表

system.run[ps   auxc,]


进程数量

进程数量

proc.num[]

[主机]{HOST.NAME}上进程数多于6000


3     模板安装说明

3.1   监控前置条件

导入AIX监控模板至Zabbix Web页面;

需要存在已安装配置的zabbix agent程序;


3.2   设备监控

3.2.1     主机添加

在zabbix web上新建host并关联AIX模板

3.2.2     修改主机宏

3.2.3     查看最新数据

在zabbix web上点击“monitor”à”Latest data”,在“Hosts”选择新增的AIX主机,最后点击“Apply”生效来查看最新数据。


linux监控模版-2.png


AIX监控模版-1.png




18001261978
上海市浦东新区龙东大道3000号 张江集电港1期 1号楼B区1206