Prometheus

Prometheus监控神器-Alertmanager篇(1)

 ̄綄美尐妖づ 提交于 2020-08-11 21:37:48
本章节主要涵盖了Alertmanager的工作机制与配置文件的比较详细的知识内容,由浅入深的给大家讲解。 警报一直是整个监控系统中的重要组成部分,Prometheus监控系统中,采集与警报是分离的。警报规则在 Prometheus 定义,警报规则触发以后,才会将信息转发到给独立的组件 Alertmanager ,经过 Alertmanager r对警报的信息处理后,最终通过接收器发送给指定用户,另外在 Alertmanager 中没有通知组的概念,只能自己对软件重新Coding,或者使用第三方插件来实现。 注意,这个通知组不是Alertmanager中的group概念,下面会详细讲 Group ,不要混淆哦。 前面已经介绍过一些关于 Alertmanager 知识点,本章开始针通过安装 Alertmanager 组件,对配置文件做详细说明,同时介绍 Prometheus 的警报规则的定义,最后使用Email、Wechat(Robot)、Dingtalk(webhook)来接受警报通知。 Alertmanager工作机制 在Prometheus生态架构里,警报是由独立的俩部分组成,可以通过上图很清晰的了解到 Prometheus 的警报工作机制。其中 Prometheus 与 Alertmanager 是分离的俩个组件。我们使用Prometheus Server端通过静态或者动态配置

HAProxy Data Plane API 2.0 docker 镜像

倖福魔咒の 提交于 2020-08-11 19:42:45
最近HAProxy Data Plane API 2.0 发布了,基于官方说明以及以前的测试,创建了一个v2的dockerfile dataplaneapi 下载地址 https://github.com/haproxytech/dataplaneapi docker 镜像 dockerfile FROM haproxy: 2.1.4 COPY dataplaneapi / usr / local / sbin / dataplaneapi RUN chmod + x / usr / local / sbin / dataplaneapi dockerhub dalongrong / haproxy - dataplaneapi: 2.1.4 参考使用 这个可以参考我以下写的v1的,以及参考官方文档,v2 增强的地方还是比较多的,可以好好看看官方的说明 https://www.haproxy.com/documentation/dataplaneapi/latest/ https://www.haproxy.com/blog/announcing-haproxy-dataplane-api-20/ https://github.com/rongfengliang/haproxy2.0-prometheus/tree/v2 https://www.cnblogs.com

Prometheus监控神器-Alertmanager篇(2)

两盒软妹~` 提交于 2020-08-11 19:21:33
本章主要对如何使用开源组件和Alertmanager组件集成警报通知。Kubernetes的警报集成后续会直接在配置文件讲解,原理大同小异,此处仅对相关警报通知做集成。 警报通知接收器 前面一直是在Web UI 查看警报信息,现在开始使用接收器与Alertmanager集成,发送警报信息到 Email 、 企业微信 、 钉钉机器人 ,对于警报要求比较高的同学,可以根据下面提到的开源组件 【PrometheusAlert全家桶】 配置飞书、短信、语音电话等警报。 Email 前面已经讲过,Alertmanager默认支持配置Email,也是最普通的方式,在Alertmanager组件中内置了SMTP协议。直接可以把前面的Alertmanager.yml中的SMTP部分截取出来,然后进行调整与配置 global: resolve_timeout: 5m # smtp配置 smtp_from: "1234567890@qq.com" # 发送邮件主题 smtp_smarthost: 'smtp.qq.com:465' # 邮箱服务器的SMTP主机配置 smtp_auth_username: "1234567890@qq.com" # 登录用户名 smtp_auth_password: "auth_pass" # 此处的auth password是邮箱的第三方登录授权密码,而非用户密码

详解:CoreDNS作为kubernetes后端的DNS服务器

扶醉桌前 提交于 2020-08-11 18:39:09
coredns之所以如此名声大噪,就是因为从kubernetes1.9开始引入,作为kubernetes内部服务发现的默认dns。毫无疑问kubernetes是coredns的后端之一,所以我们讲coredns,就从kubernetes作为其后端开始。 coredns的诸多特性网上很多文章都有提及,在这里不再赘述。简单对比下其相对于bind和skydns的优势: bind可以将解析存储到mysql或者文件中,coredns也可以将解析存储到etcd或者文件中,也支持将kubernetes作为其后端,直接调用kubernetes的api获取解析数据,然后缓存到本地内存。coredns支持插件扩展,目前在第三方插件中还同时支持将powerdns及amazondns作为其后端,后续还会支持越来越来的后端。bind在kubernetes的应用场景下,基本无用武之地。 coredns本身就是skydns的继任者,支持skydns的所有特性,而且性能更好,更易于扩展。其插件式特性无论是bind还是skydns都无法比拟。 coredns官方网站地址: https://coredns.io coredns代码地址: https://github.com/coredns/coredns coredns官方插件地址: https://coredns.io/plugins coredns第三方插件地址

在混沌中成长个人OKR

与世无争的帅哥 提交于 2020-08-11 18:32:22
前言 国内疫情早就趋于平稳,是时候找回节奏了。在这里更新个人OKR。 强化自组织,持续优化和开放透明的团队文化 6.15前辅助全员完成下半年OKR制定 覆盖全员 月度评审 季度复盘 6.30前改进基础设施确保每个项目的演示和测试环境 团队内任意成员在研项目可在5分钟内启动并演示本周期功能 9月前新人进入后10分钟内完成开发环境的生成 利用虚拟机来保证linux开发环境,物理机工具包 前端,docker,node 后端,docker,java 测试 技术进阶实现3%目标 7月前实现参与的项目镜像化比例高于90% UMP除4G平台服务外的全镜像化 ISS全镜像化 实现JGDQ全镜像化 九月前以UMP为示范系统突破全链路的单点故障和云原生技术 自建服务器集群扩大到10台 基于云原生技术的UMP示范系统实现公有云和私有云自由迁移 基本平台基于rancher或是k8s 数据库 ,mha 应用系统 ,docker 网关接入 gateway 状态服务的处理 stateful 监控系统 ,Prometheus 链路追踪系统,skywalking 日志系统,elk 11月前完成DEP的重构 实现1w并发接入 亿级数据检索2s出结果 全节点可水平扩展 无单点 总结 应对危机与抓住机遇。 来源: oschina 链接: https://my.oschina.net/u/4358286/blog

网络监控系统七大开源工具分析

馋奶兔 提交于 2020-08-11 17:58:36
不断提升企业形象及服务质量、节约成本是所有企业的需求。数字化进程的加速,企业基本都会面临线上办公、线上提供产品服务的情况。运维部门为确保企业中所有业务稳定运行,并满足业务不断扩张的发展需求,时刻肩负着极大的挑战。如何节省成本,提升运维工作效率,实现精准监控? 当下,部分企业倾向于用开源软件节约成本,开源产品如何选型?如何达到企业级效果?我们测试了七个开源产品:Zabbix、Nagios、Prometheus、SugarNMS、Ganglia、Open-Falcon和Cacti,这些产品都有稳固的用户基础且均有更新。我们重点测试了操作,管理工具、接口以及每个产品的监控能力,自动发现、应用场景等情况。 我们在Windows上测试了这七款产品,当然并不是这些产品不能在Linux上运行。 Zabbix 商业开源软件。一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。用户群体主要面向泛物联网企业,主要监控集群。 支持告警功能,具备扩展能力,可自定义监控指标,其主要采用mysql/postgresql存储监控数据,监控规模1000+左右。但缺少数据汇总功能,使用上不太方便。而且由于缺少中文资料,服务支持有限,学习成本和定制模板比较大。 Nagios Nagios是一款开源网络监视工具,适合监视大量服务器计算环境,集成了很多功能。可监控主机状态及网络设备等

CentOS-安装node_exporter导出机器指标

孤者浪人 提交于 2020-08-11 14:07:01
注 :node_exporter导出机器指标配合 Grafana + Prometheus 使用,可参考: 远程监控服务器指标 创建相关目录 $ mkdir /home/prometheus/ -p $ cd /home/prometheus/ 获取 node_exporter压缩包 没有安装wget需要执行:$ yum install wget -y github主页 (版本参考主页) $ wget https://github.com/prometheus/node_exporter/releases/download/ v1.0.0 /node_exporter- 1.0.0 .linux-amd64.tar.gz 解压缩并将目录重命名为node_exporter $ tar -xzvf node_exporter- 1.0.0 .linux-amd64.tar.gz $ mv node_exporter- 1.0.0 .linux-amd64 node_exporter 创建新的服务文件 $ vi /etc/systemd/system/node_exporter.service [Unit] Description=Node Exporter Wants=network-online.target After=network-online.target [Service]

阿里发布2020农产品电商报告数字农业将成风口

末鹿安然 提交于 2020-08-11 09:45:51
完美日记创立于2017年,这家公司上线不到两年即成为天猫彩妆销冠,2019年成为11年来第一个登上天猫双十一彩妆榜首的国货品牌,包揽天猫2019全年彩妆销冠;2020年4月成为首个亮相天猫超级品牌日的国货彩妆品牌,同时勇破彩妆品牌销售纪录。另外,完美日记已在全国各地开设了100家线下店,计划至2022年底开店超600家。截至2020年4月,品牌SKU超过700个,全网用户粉丝数量超过2500万,月曝光量10亿+。 “轻研发、重营销”是流量思维企业的通病,为了“打造互联网时代新的美妆集团”,在依靠流量和营销快速占据市场的同时,完美日记也在不断夯实其技术底座。今年4月,完美日记已完成IT系统全面容器化,保证了每一次大促活动的系统稳定性和可用性,同时利用阿里云ACK容器快速弹性扩缩容,节约服务器成本50%以上。 1、完美日记容器化改造之路 对于一家创业公司而言,常常有三个问题摆在面前: 如何高效、低成本地搭建系统,同时确保安全稳定? 如何敏捷构建和发布应用,满足业务需求? 如何提高团队开发效率,确保开发质量? 早期大部分互联网公司都是直接购买服务器,租用IDC机房的机架部署,应用是直接运行在物理机上,如果要扩展必须购买新的服务器。IDC会频繁出现各种故障,如果遇到IDC迁移就更麻烦,必须半夜搬机器,天亮前上线,对于企业来说,在成本、服务稳定性、工作效率上都是很大的消耗。

Service Mesh 中的可观察性实践

旧巷老猫 提交于 2020-08-11 02:32:24
Service Mesh Virtual Meetup 是 ServiceMesher 社区和 CNCF 联合主办的线上系列直播。本期为 Service Mesh Virtual Meetup#1 ,邀请了四位来自不同公司的嘉宾,从不同角度展开了 Service Mesh 的应用实践分享,分享涵盖如何使用 SkyWalking 来观测 Service Mesh,来自陌陌和百度的 Service Mesh 生产实践,Service Mesh 的可观察性和生产实践以及与传统微服务监控的区别。 本文根据5月14日晚,G7 微服务架构师叶志远的主题分享《Service Mesh 高可用在企业级生产中的实践》整理。文末包含本次分享的视频回顾链接以及 PPT 下载地址。 前言 谈到 Service Mesh,人们总是想起微服务和服务治理,从 Dubbo 到 Spring Cloud (2016开始进入国内研发的视野,2017年繁荣)再到 Service Mesh (2018年开始被大家所熟悉),正所谓长江后浪推前浪,作为后浪,Service Mesh 别无选择,而 Spring Cloud 对 Service Mesh 满怀羡慕,微服务架构的出现与繁荣,是互联网时代架构形式的巨大突破。Service Mesh 具有一定的学习成本,实际上在国内的落地案例不多,大多是云商与头部企业

蚂蚁金服在 Service Mesh 监控落地经验总结

走远了吗. 提交于 2020-08-10 18:00:54
引言 Service Mesh 是目前社区最为炙手可热的技术方向,去年双11在蚂蚁金服得到全面的应用,并平稳顺滑的支撑了大促服务。作为目前规模最大的 Service Mesh 集群,本文从监控的领域对 Service Mesh 落地进行经验总结,主要从以下几方面进行介绍: 云原生监控,介绍蚂蚁金服 Metrics 监控的落地; 用户视角分析,介绍从应用 owner 的角度对这一基础服务设施的体验以及 SRE 从全站服务的稳定性对监控提出的要求; 未来的思考,介绍后续发展方向; 云原生监控 云原生应用的设计理念已经被越来越多的开发者接受与认可,今年蚂蚁金服应用服务全面云原生化,对我们监控服务提出更高的要求。目前 Metrics 指标监控服务也逐渐形成体系,如下图所示基于社区原生 Prometheus 采集方案在蚂蚁金服监控场景下落地。 怎么采集 蚂蚁金服监控采集 AGENT 是部署在物理机上,支持多个采集插件,如下图,包括执行命令、日志、HTTP 请求、动态 SQL 采集、系统指标采集、JVM 采集以及进程监控等,同时支持多个解析插件自定义解析、单行文本解析、Lua 脚本解析、JSON 解析以及 Prometheus 解析等。 在Service Mesh 监控落地中,业务方参考业界标准输出 Metrics 指标数据,监控采集该物理机不同 Pod、App 和 Sidecar 的各项指标