zabbix监控GPU显卡温度 监控GPU显卡使用状态:
一、zabbix监控GPU温度
1、zabbix_agent端操作:
进入zabbix_agent安装目录:
cd /usr/local/zabbix/etc
查看cpu显卡信息:
nvidia-smi 获取到三块显卡信息:
创建三个文件 (有几块显卡就创建几个):
根据显卡编号创建 从0开始
touch gpu_temperature_v{0..2}.sh
chmod o+x gpu_temperature_v*
使用awk命令获取到每个显卡的温度值 根据自己的显卡位置数:
获取第9行信息过滤:
nvidia-smi|awk 'NR==9'|awk '{print$3}' |awk -FC '{print$1}'
nvidia-smi|awk 'NR==12'|awk '{print$3}' |awk -FC '{print$1}'
nvidia-smi|awk 'NR==15'|awk '{print$3}' |awk -FC '{print$1}'
获取到的添加到对于的.sh脚本中
cat gpu_temperature_v0.sh
#!/bin/bash
nvidia-smi|awk 'NR==9'|awk '{print$3}' |awk -FC '{print$1}'
)
zabbix-agentd里配置:
vim /usr/local/zabbix/etc/zabbix_agentd.conf
添加:
UserParameter=gpu_temperature_v0.sh,/usr/local/zabbix/etc/gpu_temperature_v0.sh
UserParameter=gpu_temperature_v1.sh,/usr/local/zabbix/etc/gpu_temperature_v1.sh
UserParameter=gpu_temperature_v2.sh,/usr/local/zabbix/etc/gpu_temperature_v2.sh
UserParameter=gpu_temperature_v3.sh,/usr/local/zabbix/etc/gpu_temperature_v3.sh
gpu自身的监控:
nvidia-smi
每2秒监控一次:
watch -n 2 nvidia-smi
重新zabbix_agent:
zabbix WEB端操作:
1、选择对于的主机、创建zabbix监控项
2、名称zabbix_aagent配置里的名称、键值脚本名字 添加监控项:
3、配置触发器 名称创建成一样的
4、配置监控图形
名称都创建为一样的:
查看图形获取信息
依次创建3个图形信息
5、前端配置图形界面 配置完 显卡存储后最终效果
二、zabbix监控GPU显存使用状态
进入zabbix_agent安装目录:
1、GPU使用信息获取:
cd /usr/local/zabbix/etc/video_memory
查看GPU显存使用状态:
nvidia-smi
4块gpu创建4个shell脚本:
touch gpu_video_memory_v{0..3}.sh
chmod o+x gpu_video_memory_v*
nvidia-smi -q | grep -A 3 "FB Memory Usage"
分别单独获取每块gpu已使用信息:
nvidia-smi -q | grep -A 3 "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==1 {print}'
nvidia-smi -q | grep -A 3 "FB Memory Usage" | grep Used |awk '{print $3}'|awk 'NR==2 {print}'
nvidia-smi -q | grep -A 3 "FB Memory Usage" | grep Used |awk '{print $3}'|awk 'NR==3 {print}'
nvidia-smi -q | grep -A 3 "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==4 {print}'
2、zabbix_agent配置文件操作:
命名键值:gpu_video_memory_v0.......
######### GPU video_memory mib############
UserParameter=gpu_video_memory_v0,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v0.sh
UserParameter=gpu_video_memory_v1,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v1.sh
UserParameter=gpu_video_memory_v2,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v2.sh
UserParameter=gpu_video_memory_v3,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v3.sh
配置完成重启zabbix_agent:
/etc/init.d/zabbix_agentd restart
3、zabbix web前端配置:
创建监控项:
配置触发器:
配置完成后能看到绿色图片则正常:
配置图形 名称都保持一样:
最后再主界面配置图形显示:
1、创建图形模块:
类型选择图形 、名称尽量填写相同
选择主机和刚才创建的监控项:
所有操作有几块gpu显卡就创建几次:
最终效果:
.
.
.
.
最后:
本人为纯小白,所写博客为个人学习记录,如某些地方编写有错误,或者涉及侵权的请联系我删除或修改。
Q Q:7721552
邮箱:7721552@qq.com
来源:oschina
链接:https://my.oschina.net/u/4267117/blog/4655750