grafana

loki grafana 团队开源的,类似Prometheus 的log 系统

半世苍凉 提交于 2020-03-16 14:21:47
Prometheus 主要面向的是metrics,但是loki 是log,这样加上grafana 强大的可视化以及alert能力, 我们可以做好多事情,loki 的设计来源于Prometheus。 组件说明 loki 包含三个组件 loki 核心组件进行log 的查询处理 promtail 一个agent 主要是进行log 的发送 grafana ui 环境准备 docker-compose 文件 version: "3" services: loki: image: grafana/loki:master ports: - "3100:3100" volumes: - $PWD:/etc/loki command: -config.file=/etc/loki/loki-local-config.yaml promtail: image: grafana/promtail:make-images-static-26a87c9 volumes: - $PWD:/etc/promtail - ./log:/var/log command: -config.file=/etc/promtail/promtail-docker-config.yaml grafana: image: grafana/grafana:master ports: - "3000:3000"

如何在企业微信中告警的通知、认领和关闭?

我们两清 提交于 2020-03-12 17:03:08
企业微信是腾讯微信团队打造的企业通讯与办公工具,具有与微信一致的沟通体验,丰富的OA应用,和连接微信生态的能力,可帮助企业连接内部、连接生态伙伴、连接消费者。专业协作、安全管理、人即服务。成为了大部分企业的主流办公应用。 在当下疫情期间,将告警不遗漏的发送到企业微信,并且能够快速的认领和关闭,达到第一时间处理的效果,就是一个最好的选择。 睿象云智能告警平台Cloud Alert (以下简称为CA)作为中国第一个 SaaS 模式的云告警平台,就完美的解决了上述问题,从CA平台接入到企业微信群的告警通知,可以清楚的看到告警编号、告警时间、告警级别、告警内容;用户可以直接在企业微信群中进行认领、关闭等操作。接下来就说下接入步骤吧~ 主要分为两步,第一步是将监控平台接入到CA当中,第二步是设置钉钉的通知方式。 将监控平台接入到 CA 中 进入Cloud Alert,点击集成-监控工具,选择您的监控工具进行集成,目前支持的有Zabbix、Prometheus、Nagios、Open-Falcon、AWS、阿里云、Cacti、solarwinds、睿象云、监控宝、Grafana 、Vmware、Site24x7、如果上述都没有支持你的监控系统,那还可以用通用集成rest api和邮箱集成。 设置企业微信的通知方式 在PC端企业微信群中,右键点击群-添加群机器人 点击新创建一个机器人

prometheus监控k8s

谁说胖子不能爱 提交于 2020-03-09 10:13:20
1.Prometheus 是什么 Prometheus(普罗米修斯)是一个最初在SoundCloud上构建的监控系统。自2012年成为社区开源项目,拥 有非常活跃的开发人员和用户社区。为强调开源及独立维护,Prometheus于2016年加入云原生云计算基金会 (CNCF),成为继Kubernetes之后的第二个托管项目。 官方链接: https://prometheus.io/ 托管git地址: https://github.com/prometheus 2.Prometheus组成及架构 Prometheus Server:收集指标和存储时间序列数据,并提供查询接口 ClientLibrary:客户端库 Push Gateway:短期存储指标数据。主要用于临时性的任务 Exporters:采集已有的第三方服务监控指标并暴露metrics Alertmanager:告警 Web UI:简单的Web控制台,展示功能较弱一般用来调试监控函数PromSQL,一般用grafana替代展示 TSDB:时序数据库,用来存储监控数据。 3.数据模型 Prometheus将所有数据存储为时间序列;具有相同度量名称以及标签属于同一个指标。 每个时间序列都由度量标准名称和一组键值对(也成为标签)唯一标识。 时间序列格式: <metric_name>{<lable_name>=<lable_value

微服务监控实践(二)- Grafana的安装及告警配置

我们两清 提交于 2020-03-07 02:33:55
引子:最近在学golang,又碰巧项目组需要做微服务监控,搜索之后最终选定prometheus+grafana+springcloud(eureka)作为技术框架。 本篇文章主要讲解Grafana的安装及告警配置 由于国内的网络环境,很多资源是无法下载的,本来写了一篇番外,教大家如何下载,结果由于敏感词关系无法发布,有需要的小伙伴可以私信与我联系。 1. Grafana下载及安装 下载 :从我上传的地址下载即可(免费哦), Grafana-6.2.1.rpm下载 安装 : rz 命令上传至服务器后,使用 rpm -ivh 文件名 安装即可 启动 : systemctl start grafana-server 即可完成启动 注意事项 :如果启动失败的话,使用 systemctl --failed 可以查看到失败实例列表,想要从失败列表中清除这个实例,请使用 systemctl reset-failed grafana-server 2. Grafana配置 由于grafana没有完善的配置文件检测机制(不像prometheus有promtool),所以需要时刻关注grafana的日志信息,日志路径 /var/log/grafana 下的 grafana.log Grafana默认端口号是 3000 ,直接访问即可,初始用户名和密码都是 admin 按照首页给定的路线进行配置即可

Prometheus监控docker服务

走远了吗. 提交于 2020-03-04 19:03:55
操作步骤: sudo docker run \ --restart=always \ --volume=/:/rootfs:ro \ --volume=/var/run:/var/run:ro \ --volume=/sys:/sys:ro \ --volume=/var/lib/docker/:/var/lib/docker:ro \ --volume=/dev/disk/:/dev/disk:ro \ --publish=8080:8080 \ --detach=true \ --name=cadvisor \ google/cadvisor:v0.33.0 echo ' global: scrape_interval: 15s scrape_timeout: 10s evaluation_interval: 15s alerting: alertmanagers: - static_configs: - targets: [] scheme: http timeout: 10s scrape_configs: - job_name: prometheus scrape_interval: 15s scrape_timeout: 10s metrics_path: /metrics scheme: http static_configs: - targets:

k8s群集的三种的Web-UI界面部署(dashboard、scope、Prometheus)

南笙酒味 提交于 2020-02-29 00:48:35
一、k8s的UI访问界面-dashboard 在dashboard中,虽然可以做到创建、删除、修改资源等操作,但通常情况下,我们会把它当做健康k8s集群的软件。 作为Kubernetes的Web用户界面,用户可以通过Dashboard在Kubernetes集群中部署容器化的应用,对应用进行问题处理和管理,并对集群本身进行管理。通过Dashboard,用户可以查看集群中应用的运行情况,同时也能够基于Dashboard创建或修改部署、任务、服务等Kubernetes的资源。通过部署向导,用户能够对部署进行扩缩容,进行滚动更新、重启Pod和部署新应用。当然,通过Dashboard也能够查看Kubernetes资源的状态。 1、Dashboard提供的功能 在默认情况下,Dashboard显示默认(default)命名空间下的对象,也可以通过命名空间选择器选择其他的命名空间。在Dashboard用户界面中能够显示集群大部分的对象类型。 1)集群管理 集群管理视图用于对节点、命名空间、持久化存储卷、角色和存储类进行管理。 节点视图显示CPU和内存的使用情况,以及此节点的创建时间和运行状态。 命名空间视图会显示集群中存在哪些命名空间,以及这些命名空间的运行状态。角色视图以列表形式展示集群中存在哪些角色,这些角色的类型和所在的命名空间。 持久化存储卷以列表的方式进行展示

Prometheus入门+grafana集成

强颜欢笑 提交于 2020-02-28 17:22:41
开始使用Prometheus $ systemctl start prometheus $ netstat -lntp tcp6 0 0 :::9090 :::* LISTEN 19824/./prometheus 在浏览器访问: http://ip:9090/graph 。Prometheus会把自身作为一个项目进行自监控,查看收集到监控项: http://172.16.180.129:9090/metrics (如果是首次启动,需要等待30s左右的时间) 使用内置表达式查看数据 地址: http://ip:9090/graph Prometheus内置监控项 prometheus_target_interval_length_seconds ,将该监控项直接输入console查询,可获取数据: ![image-20190322132500188](/Users/adai/Library/Application Support/typora-user-images/image-20190322132500188.png) 使用prometheus监控服务器 上面用Prometheus本身的数据简单演示了监控数据的查询,这里我们用一个监控服务器状态的例子来更加直观说明。 为监控服务器CPU、内存、磁盘、I/O等信息,首先需要安装node_exporter。node

关于监控—我们只是讲道理

眉间皱痕 提交于 2020-02-28 10:36:33
前言 监控系统,是通过持续信息采集、收敛、分析来发现问题,并对解决问题提供数据依赖的一种科学技术。通过监控技术可以实现对故障进行 “ 事前预警,事后追踪 ”。 监控,是运维工作中的重要技术,如果没有监控,运维人员就相当于盲人摸象,发现问题会变得很被动;监控也是整个产品生命周期中最重要的一环,如果没有监控,产品中存在的问题就只能等用户反馈(客诉),严重降低用户体验。 目前,互联网行业的监控技术已经很成熟,业界有很多不错的开源产品可供选择,运维在开展监控工作时,选择一款开源监控系统,是一个省时省力,效率最高的方案。 监控目的 监控的目的是通过采集准确的监控指标、配置合理的告警机制,提前或者尽早发现问题,并做出响应、解决问题,进而保证产品的稳定性,提升用户体验。 具体可分为以下几方面: 对系统持续实时监控:指硬件系统,如服务器、路由器、交换机等; 对应用持续实时监控:指业务运行依赖的基础服务,如数据库、中间件等; 对业务持续实时监控:指产品运行情况,如状态码、接口响应时间、异常信息等。 监控方法 在了监控的重要性及监控目的之后,我们来聊聊到底如何做监控。 确定监控对象:明确是系统监控,还是应用监控,或者是业务监控; 确定监控指标:确定监控对象之后,需要明确具体监控指标,如果监控对象为服务器,那么监控指标有CPU、磁盘、内存等; 确定告警格式:监控的目的之一就是发出告警,所以

Zabbix4.0 大型企业级自动化监控系统

五迷三道 提交于 2020-02-28 02:58:23
1、聊聊监控-为什么要监控?怎么来监控?.mp4 2、聊聊监控-要监控什么?(上).mp4 3、聊聊监控-要监控什么?(下).mp4 4、Zabbix概述-Zabbix功能.mp4 5、Zabbix概述-Zabbix监控范畴.mp4 6、Zabbix概述-Zabbix组件及架构.mp4 7、Zabbix概述-Zabbix常用术语.mp4 8、Zabbix部署-Zabbix安装要求.mp4 9、Zabbix部署-部署MySQL数据库.mp4 10、Zabbix部署-YUM部署Zabbix服务器.mp4 11、Zabbix部署-源码包部署Zabbix服务器(上).mp4 12、Zabbix部署-源码包部署Zabbix服务器(下).mp4 13、添加被监控主机-部署Zabbix Agent.mp4 14、添加被监控主机-创建主机、监控项、触发器、图形和模板.mp4 15、Web页面配置与管理-主机组与监控项.mp4 16、Web页面配置与管理-扩展Agent功能-UserParameter.mp4 17、Web页面配置与管理-触发器.mp4 18、Web页面配置与管理-聚合图形.mp4 19、告警-动作(Action).mp4 20、告警-邮件告警.mp4 21、告警-自定义脚本告警.mp4 22、告警-钉钉告警.mp4 23、企业监控案例-监控Web.mp4 24、企业监控案例

部署docker swarm集群监控

依然范特西╮ 提交于 2020-02-27 08:44:09
前提 Docker 前言 现在Docker Swarm已经彻底输给了K8S,但是现在K8S依然很复杂,上手难度较Docker Swarm高,如果是小规模团队且需要容器编排的话,使用Docker Swarm还是适合的。 目前Docker Swarm有一个问题一直没有解决,如果业务需要知道用户的请求IP,则Docker Swarm满足不了要求。目前部署在Docker Swarm内的服务,无法获取到用户的请求IP。 具体可以看看这个ISSUE-> Unable to retrieve user's IP address in docker swarm mode 整体思路 思路整体来说是使用Influxdb+Grafana+cadvisor,其中 cadvisor 负责数据的收集,每一台节点都部署一个cadvisor服务,Influxdb负责数据的存储,Grafana负责数据的可视化。 演示环境 主机 IP master(manager) 192.168.1.60 node1(worker) 192.168.1.61 node2(worker) 192.168.1.62 我这里是将master节点当作监控数据存储以及可视化服务的节点作为演示,一般是拿一个worker节点做这样的工作。 初始化Docker Swarm 在master机器上初始化集群,运行 docker swarm init