Zabbix 模板
Zabbix操作系统监控模板 Linux
分享到:

Zabbix操作系统监控模板 Linux

Linux是通过Zabbix Agent进行设备纳管
监控指标主要包含CPU、内存、文件分区、磁盘IO、网络接口、进程等
支持的Zabbix版本:5.0以上版本
支持的Linux版本:Centos、Redhat、Uos、Kylin、Ubuntu、Euler、Suse
模板介绍
支持的Zabbix版本 5.0及以上 监控纳管模式 Agent主动模式


1     Linux模板概述

本文档适用于监控操作系统Linux,Linux是通过Zabbix Agent进行设备纳管,监控指标主要包含CPU、内存、文件分区、磁盘IO、网络接口、进程等。

支持的Zabbix版本:5.0以上版本

支持的Linux版本:Centos、Redhat、Uos、Kylin、Ubuntu、Euler、Suse

监控模板下载:主模板_操作系统_Linux_主动.xml


linux监控模版-1.png

2     模板详情

2.1   模板宏

宏名称

宏描述

默认值

{$VFS.DEV.DEVNAME.MATCHES}

文件分区匹配规则配置

.+

{$VFS.DEV.DEVNAME.NOT_MATCHES}

文件分区不匹配规则配置

^(loop[0-9]*|sd[a-z][0-9]+|nbd[0-9]+|sr[0-9]+|fd[0-9]+|dm-[0-9]+|ram[0-9]+|ploop[a-z0-9]+|md[0-9]*|hcp[0-9]*|zram[0-9]*)

{$VFS.DEV.READ.AWAIT.WARN}

磁盘IO读等待时长阈值

20

{$VFS.DEV.WRITE.AWAIT.WARN}

磁盘IO写等待时长阈值

20

{$OBJ.TYPE}

设备类型

主机

{$AGENT_TIMEOUT}

Agent无数据超时时长阈值

15m


2.2   监控指标

指标组

监控指标

描述

ITEM键值

触发器

PING

zabbix   agent代理状态

agent代理状态

agent.ping

[主机] {HOST.NAME} Agent  

客户端无法正常采集数据

zabbix   agent代理状态

agent代理状态

agent.ping

[主机]{HOST.NAME}失联,持续3分钟未响应,系统可能宕机

zabbix_agent   运行的版本

zabbix_agent   运行的版本

agent.version


zabbix_agentd运行的主机名

zabbix_agentd运行的主机名

agent.hostname


CPU

CPU   IOWait

CPU   iowait

system.cpu.util[,iowait]

[主机]{HOST.NAME} 持续5分钟CPU iowait达到50%

CPU中断率

CPU中断时间

system.cpu.util[,interrupt]


CPU信息

CPU信息

system.hw.cpu[,full]


CPU总使用率

CPU总使用率

system.cpu.util[Usage]

[主机]{HOST.NAME} 10分钟CPU平均使用率大于70%

CPU总使用率

CPU总使用率

system.cpu.util[Usage]

[主机]{HOST.NAME} 10分钟CPU平均使用率大于90%

CPU每秒中断数

CPU每秒中断数

system.cpu.intr


CPU空闲率

CPU空闲率

system.cpu.util[,idle]


CPU软中断率

CPU软中断时间

system.cpu.util[,softirq]


单个CPU IOWait率

{#CPU.NUMBER}   (iowait等待时间的百分比)

system.cpu.util[{#CPU.NUMBER},iowait]


单个CPU 使用率

{#CPU.NUMBER}   (使用百分比)

system.cpu.util[{#CPU.NUMBER},user]


CPU系统使用率

内核态使用CPU百分比

system.cpu.util[,system]


处理器数量

处理器数量

system.cpu.num[online]

[主机]{HOST.NAME} CPU持续10分钟负载超过核心数

处理器数量

处理器数量

system.cpu.num[online]

[主机]{HOST.NAME} CPU持续10分钟负载超过核心数2倍

处理器负载(平均15分钟)

处理器负载(平均15分钟)

system.cpu.load[all,avg15]


处理器负载(平均1分钟)

处理器负载(平均1分钟)

system.cpu.load[all,avg1]

[主机]{HOST.NAME} CPU持续10分钟负载超过核心数

处理器负载(平均1分钟)

处理器负载(平均1分钟)

system.cpu.load[all,avg1]

[主机]{HOST.NAME} CPU持续10分钟负载超过核心数2倍

处理器负载(平均5分钟)

处理器负载(平均5分钟)

system.cpu.load[all,avg5]


CPUSteal

强制等待虚拟CPU的时间

system.cpu.util[,steal]


CPU   nice使用率

用户空间内改变过优先级的进程占用CPU百分比

system.cpu.util[,nice]


CPU用户使用率

用户空间占用CPU百分比

system.cpu.util[,user]


ICMP

ICMP   PING状态

ICMP   ping状态

icmpping[,2,,,]

[主机]{HOST.NAME}失联,持续3分钟未响应,系统可能宕机

ICMP   丢包率

ICMP   丢包率

icmppingloss


ICMP   请求时长

ICMP   请求时长

icmppingsec


MEM

不活跃内存大小

不活跃内存大小

memory.inactive


提交内存

不溢出的内存大小

memory.kbcommit


交换分区使用大小

交换分区使用大小

system.swap.size[,used]


交换分区剩余空间百分比

交换分区剩余空间百分比

system.swap.size[,pfree]

[主机]{HOST.NAME}swap剩余空间不足5%

交换分区剩余空间百分比

交换分区剩余空间百分比

system.swap.size[,pfree]

[主机]{HOST.NAME}swap剩余空间持续10分钟低于50%

交换分区大小

交换分区大小

system.swap.size[,total]

[主机]{HOST.NAME}swap剩余空间不足5%

交换分区大小

交换分区大小

system.swap.size[,total]

[主机]{HOST.NAME}swap剩余空间持续10分钟低于50%

交换分区的剩余空间

交换分区的剩余空间

system.swap.size[,free]

[主机]{HOST.NAME} 物理内存使用率持续10分钟大于95%

内存交换到磁盘扇区数

内存交换到磁盘扇区数

system.swap.out[all,sectors]


内存交换到磁盘数量

内存交换到磁盘数量

system.swap.out[all,count]


内存交换到磁盘页数

内存交换到磁盘页数

system.swap.out[all,pages]


内存使用大小

内存使用大小

vm.memory.size[used]


内存剩余大小

内存剩余大小

vm.memory.size[free]


内存总使用率

内存总使用率

vm.memory.size[pused]


内存总大小

内存总大小

vm.memory.size[total]


可使用内存百分比

可使用内存百分比

vm.memory.size[pavailable]


可用内存

可用内存

vm.memory.size[available]


活跃内存大小

活跃内存大小

memory.active


活跃内存

活跃的内存

vm.memory.size[active]


物理内存使用率

物理内存使用率

vm.memory.size[Usage]

[主机]{HOST.NAME} 物理内存使用率10分钟平均值大于90%

物理内存使用率

物理内存使用率

vm.memory.size[Usage]

[主机]{HOST.NAME} 物理内存使用率持续10分钟大于95%

物理内存使用率

物理内存使用率

vm.memory.size[Usage]

[主机]{HOST.NAME}物理内存使用率持续10分钟大于80%

磁盘交换到内存扇区数

磁盘交换到内存扇区数

system.swap.in[all,sectors]


磁盘交换到内存数量

磁盘交换到内存数量

system.swap.in[all,count]


磁盘交换到内存页数

磁盘交换到内存页数

system.swap.in[all,pages]


系统每秒换入的交换页面数量

系统每秒换入的交换页面数量

memory.pswpin


系统每秒换出的交换页面数量

系统每秒换出的交换页面数量

memory.pswpout


缓冲内存

缓冲内存

vm.memory.size[buffers]


高速缓存

高速缓存

vm.memory.size[cached]


INFO

/etc/passwd文件大小

/etc/passwd文件大小

vfs.file.size[/etc/passwd]


系统发行版本

system.run(系统发行版本)

system.run[uname   -r]


主机名

主机名

system.hostname

[主机]{HOST.NAME}主机名发生改变

主机启动时间

主机启动时间

system.boottime


文件校验

文件校验

vfs.file.cksum[/etc/passwd]

[主机] {HOST.NAME}/etc/passwd密码文件发生变更

登陆用户数量

登陆用户数量

system.users.num


系统IP地址

系统IP地址

system.run["/sbin/ifconfig   

|grep -v 'inet[0-9]'|awk '/inet/&&!

/127.0.0.1/ {print $2}'|sed

   's/addr://g'|sed ':a;N;$!ba;s/\n/;/g'"]


系统信息

系统信息

system.uname


系统打开文件的数量

系统打开文件的数量

kernel.maxfiles


系统本地时间

系统本地时间

system.localtime


系统正常运行时间

系统正常运行时间

system.uptime

[主机] {HOST.NAME} Agent   客户端无法正常采集数据

系统正常运行时间

系统正常运行时间

system.uptime

[主机]{HOST.NAME} 刚才发生重启

系统正常运行时间

系统正常运行时间

system.uptime

[主机]{HOST.NAME}的主动监控模式无法及时采集到数据

/etc/shadow   MD5校验

/etc/shadow   MD5校验

vfs.file.md5sum[/etc/shadow]

[主机]{HOST.NAME}   /etc/shadow文件发生变化,

用户密码被修改

DISK

使用磁盘空间使用率

{#FSNAME}   使用磁盘空间使用率

vfs.fs.size[{#FSNAME},pused]

[主机]{HOST.NAME}上{#FSNAME}分区磁盘空间使用率高于90%

使用磁盘空间使用率

{#FSNAME}   使用磁盘空间使用率

vfs.fs.size[{#FSNAME},pused]

[主机]{HOST.NAME}上{#FSNAME}分区磁盘空间使用率高于95%

使用磁盘空间使用率

{#FSNAME}   使用磁盘空间使用率

vfs.fs.size[{#FSNAME},pused]

[主机]{HOST.NAME}上{#FSNAME}分区磁盘空间使用率高于99%

剩余磁盘空间百分比

{#FSNAME}   剩余磁盘空间百分比

vfs.fs.size[{#FSNAME},pfree]


使用磁盘空间

{#FSNAME}   使用磁盘空间

vfs.fs.size[{#FSNAME},used]


剩余磁盘空间

{#FSNAME}   剩余磁盘空间

vfs.fs.size[{#FSNAME},free]

[主机]{HOST.NAME}上{#FSNAME}分区磁盘空间使用率高于99%

总磁盘空间

{#FSNAME}   总磁盘空间

vfs.fs.size[{#FSNAME},total]


磁盘iNode使用率

{#FSNAME}   磁盘inode使用率

vfs.fs.inode[{#FSNAME},pused]

[主机]{HOST.NAME}上{#FSNAME}分区磁盘inode使用率高于90%

磁盘iNode使用率

{#FSNAME}   磁盘inode使用率

vfs.fs.inode[{#FSNAME},pused]

[主机]{HOST.NAME}上{#FSNAME}分区磁盘inode使用率高于95%

磁盘iNode使用率

{#FSNAME}   磁盘inode使用率

vfs.fs.inode[{#FSNAME},pused]

[主机]{HOST.NAME}上{#FSNAME}分区磁盘inode使用率高于99%

磁盘剩余iNode数量

{#FSNAME}   磁盘剩余inode数量

vfs.fs.inode[{#FSNAME},free]


磁盘剩余iNode百分比

{#FSNAME}   磁盘剩余inode百分比

vfs.fs.inode[{#FSNAME},pfree]


磁盘已使用iNode数量

{#FSNAME}   磁盘已使用inode数量

vfs.fs.inode[{#FSNAME},used]


磁盘总iNode数量

{#FSNAME}   磁盘总inode数量

vfs.fs.inode[{#FSNAME},total]


DISKIO

磁盘请求队列的平均长度

{#DMNAME}:   磁盘请求队列的平均长度

vfs.dev.queue_size[{#DMNAME}]


I/O请求的平均时间

{#DMNAME}:   I/O请求的平均时间

vfs.dev.total.await[{#DMNAME}]

[主机]{HOST.NAME}  

{#DMNAME}持续5分钟总IO等时间超过200ms

IO队列非空的时间比率

{#DMNAME}:   IO队列非空的时间比率

vfs.dev.util[{#DMNAME}]


写请求的平均时间

{#DMNAME}:   写请求的平均时间

vfs.dev.write.await[{#DMNAME}]

[主机]{HOST.NAME}  

{#DMNAME}持续5分钟写IO等时间超过200ms

每秒写请求被合并次数

{#DMNAME}:   每秒写请求被合并次数

vfs.dev.write.time.rate[{#DMNAME}]


每秒完成的写次数

{#DMNAME}:   每秒完成的写次数

vfs.dev.write.rate[{#DMNAME}]


每秒完成的读次数

{#DMNAME}:   每秒完成的读次数

vfs.dev.read.rate[{#DMNAME}]


每秒读请求被合并次数

{#DMNAME}:   每秒读请求被合并次数

vfs.dev.read.time.rate[{#DMNAME}]


磁盘IO原始数据采集

{#DMNAME}:   磁盘IO原始数据采集

vfs.file.contents[/sys/block/{#DISK}/stat]


读请求的平均时间

{#DMNAME}:   读请求的平均时间

vfs.dev.read.await[{#DMNAME}]

[主机]{HOST.NAME}   

{#DMNAME}持续5分钟读IO等时间超过200ms

磁盘每秒总写字节数

磁盘每秒总写字节数

vfs.dev.write[,sps]

[主机]{HOST.NAME} 持续10分钟磁盘写速度达到500MB/s

磁盘每秒总写操作数

磁盘每秒总写操作数

vfs.dev.write[,ops]


磁盘每秒总读写操作数

磁盘每秒总读写操作数

vfs.dev.readwrite.ops


磁盘每秒总读字节数

磁盘每秒总读字节数

vfs.dev.read[,sps]

[主机]{HOST.NAME} 持续10分钟磁盘读速度达到500MB/s

磁盘每秒总读操作数

磁盘每秒总读操作数

vfs.dev.read[,ops]


NET

TCP会话数量

tcp会话数量

tcp_sessions_number


网卡每秒接收包数

{#IFNAME}   (网卡每秒接收包数)

net.if.in[{#IFNAME},packets]


网卡MAC地址

{#IFNAME}   (网卡mac)

system.hw.macaddr[{#IFNAME}]


网卡每秒发送包数

{#IFNAME}   (网卡每秒发送包数)

net.if.out[{#IFNAME},packets]


网卡每秒发送速率

{#IFNAME}   (网卡每秒发送速率)

net.if.out[{#IFNAME}]

[主机]{HOST.NAME}网卡{#IFNAME}发送流量过大

网卡每秒发送错误包数

{#IFNAME}   (网卡每秒发送错误包数)

net.if.out[{#IFNAME},errors]


网卡每秒接收速率

{#IFNAME}   (网卡每秒接收速率)

net.if.in[{#IFNAME}]

[主机]{HOST.NAME}网卡{#IFNAME}接收流量过大

网卡每秒接收错误包数

{#IFNAME}   (网卡每秒接收错误包数)

net.if.in[{#IFNAME},errors]


网卡每秒发送丢包数

{#IFNAME}(网卡每秒发送丢包数)

net.if.out[{#IFNAME},dropped]

[主机]{HOST.NAME}网卡{#IFNAME}发送丢包率大于50%

网卡每秒发送丢包率

{#IFNAME}(网卡每秒发送丢包率)

net.if.out[{#IFNAME},drop_rate]


网卡每秒接收丢包数

{#IFNAME}(网卡每秒接收丢包数)

net.if.in[{#IFNAME},dropped]


网卡每秒接收丢包率

{#IFNAME}(网卡每秒接收丢包率)

net.if.in[{#IFNAME},drop_rate]

[主机]{HOST.NAME}网卡{#IFNAME}接收丢包率大于50%

PROC

不可中断睡眠进程数

不可中断睡眠进程数

uninterruptible_sleep_num


系统进程列表

系统进程列表

system.run[ps   auxc,]


线程数

线程数

threads_number


进程数量

进程数量

proc.num[]


进程的最大数量

进程的最大数量

kernel.maxproc


进程队列数

进程队列数

process_queue_num



3     模板安装说明

3.1   监控前置条件

导入Linux监控模板至Zabbix Web页面;

需要存在已安装配置的zabbix agent程序;


3.2   设备监控

3.2.1     主机添加

在zabbix web上新建host并关联Linux模板

3.2.2     修改主机宏

3.2.3     查看最新数据

在zabbix web上点击“monitor”à”Latest data”,在“Hosts”选择新增的Linux主机,最后点击“Apply”生效来查看最新数据。

linux监控模版-2.png


linux监控模版-1.png






18001261978
上海市浦东新区龙东大道3000号 张江集电港1期 1号楼B区1206