zabbix监控GPU显卡温度 监控GPU显卡使用状态

江枫思渺然 提交于 2020-09-29 23:45:32

zabbix监控GPU显卡温度 监控GPU显卡使用状态:


zabbix监控GPU显卡温度 监控GPU显卡使用状态

一、zabbix监控GPU温度

1、zabbix_agent端操作:

进入zabbix_agent安装目录:
cd /usr/local/zabbix/etc

查看cpu显卡信息:

nvidia-smi     获取到三块显卡信息:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

创建三个文件 (有几块显卡就创建几个):
根据显卡编号创建 从0开始
touch gpu_temperature_v{0..2}.sh 
chmod o+x gpu_temperature_v*

zabbix监控GPU显卡温度 监控GPU显卡使用状态

使用awk命令获取到每个显卡的温度值 根据自己的显卡位置数:

    获取第9行信息过滤:
    nvidia-smi|awk 'NR==9'|awk '{print$3}' |awk -FC '{print$1}' 

zabbix监控GPU显卡温度 监控GPU显卡使用状态

nvidia-smi|awk 'NR==12'|awk '{print$3}' |awk -FC '{print$1}'
nvidia-smi|awk 'NR==15'|awk '{print$3}' |awk -FC '{print$1}'

获取到的添加到对于的.sh脚本中

    cat gpu_temperature_v0.sh 

    #!/bin/bash
    nvidia-smi|awk 'NR==9'|awk '{print$3}' |awk -FC '{print$1}'

zabbix监控GPU显卡温度 监控GPU显卡使用状态)

zabbix-agentd里配置:

    vim /usr/local/zabbix/etc/zabbix_agentd.conf
    添加:
    UserParameter=gpu_temperature_v0.sh,/usr/local/zabbix/etc/gpu_temperature_v0.sh
    UserParameter=gpu_temperature_v1.sh,/usr/local/zabbix/etc/gpu_temperature_v1.sh
    UserParameter=gpu_temperature_v2.sh,/usr/local/zabbix/etc/gpu_temperature_v2.sh
    UserParameter=gpu_temperature_v3.sh,/usr/local/zabbix/etc/gpu_temperature_v3.sh

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    gpu自身的监控:
            nvidia-smi 
    每2秒监控一次:
            watch -n 2 nvidia-smi
    重新zabbix_agent:

zabbix WEB端操作:

    1、选择对于的主机、创建zabbix监控项

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    2、名称zabbix_aagent配置里的名称、键值脚本名字 添加监控项:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    3、配置触发器 名称创建成一样的

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    4、配置监控图形

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    名称都创建为一样的:

zabbix监控GPU显卡温度 监控GPU显卡使用状态
查看图形获取信息
zabbix监控GPU显卡温度 监控GPU显卡使用状态

依次创建3个图形信息
5、前端配置图形界面 配置完 显卡存储后最终效果

zabbix监控GPU显卡温度 监控GPU显卡使用状态
zabbix监控GPU显卡温度 监控GPU显卡使用状态

二、zabbix监控GPU显存使用状态

进入zabbix_agent安装目录:
1、GPU使用信息获取:

    cd /usr/local/zabbix/etc/video_memory
    查看GPU显存使用状态:
    nvidia-smi

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    4块gpu创建4个shell脚本:
    touch gpu_video_memory_v{0..3}.sh
    chmod o+x gpu_video_memory_v*

    nvidia-smi -q | grep -A 3  "FB Memory Usage"

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    分别单独获取每块gpu已使用信息:
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==1 {print}'
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used |awk '{print $3}'|awk 'NR==2 {print}'
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used |awk '{print $3}'|awk 'NR==3 {print}'
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==4 {print}'

zabbix监控GPU显卡温度 监控GPU显卡使用状态

2、zabbix_agent配置文件操作:

    命名键值:gpu_video_memory_v0.......
    ######### GPU video_memory  mib############
    UserParameter=gpu_video_memory_v0,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v0.sh
    UserParameter=gpu_video_memory_v1,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v1.sh
    UserParameter=gpu_video_memory_v2,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v2.sh
    UserParameter=gpu_video_memory_v3,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v3.sh

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    配置完成重启zabbix_agent:
    /etc/init.d/zabbix_agentd restart

3、zabbix web前端配置:

    创建监控项:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    配置触发器:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    配置完成后能看到绿色图片则正常:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    配置图形 名称都保持一样:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

最后再主界面配置图形显示:
1、创建图形模块:

    类型选择图形 、名称尽量填写相同

zabbix监控GPU显卡温度 监控GPU显卡使用状态

    选择主机和刚才创建的监控项:

zabbix监控GPU显卡温度 监控GPU显卡使用状态
所有操作有几块gpu显卡就创建几次:
最终效果:
zabbix监控GPU显卡温度 监控GPU显卡使用状态


.

.

.

.


最后:
本人为纯小白,所写博客为个人学习记录,如某些地方编写有错误,或者涉及侵权的请联系我删除或修改。
Q Q:7721552
邮箱:7721552@qq.com


标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!