SRE 技术保障平台-盯屏中心 TAC: 混合云一站式告警运维平台
1.目标定位 1.1 背景 告警管控平台种类繁多 告警出现后未及时发现处理最终导致故障产生 专有云监控能力拉起依赖版本升级,操作复杂,迭代慢 异常问题和故障的感知力不如客户 1.2 目标 制定告警数据接入规范 实现告警统一集中展示 建设多种告警外发通知 独立部署、快速迭代 告警严重程度区分,提升感知力 1.3 定位 图1:TAC定位 2.平台简介 2.1 介绍 SRE技术保障平台-盯屏中心(TAC-TAM Alarm Center)是TAM为混合云精心打造的一站式告警运维平台,覆盖混合云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助混合云平台快速发现、定位异常问题,协助产品团队促进产品改进。 2.2特点 2.2.1 告警汇聚 默认集成:云平台、大数据、云实例、站点应用 支持扩展:自定义监控 2.2.2 报警通道 钉钉&本地化钉钉 短信服务 企业邮箱 警务微信 2.3 业务服务流程 图2:TAC业务服务流程图 3.主要功能及界面展示 3.1 告警盯屏中心 实时展示云平台当前所有的告警数据以及列出近7天的产品告警TOP排行, 一目了然告警数据, 提升感知力。 图3:告警盯屏中心界面展示 3.2 SRE运维大盘 通过指标化,更方便查看产品的健康状况,判断是否有故障; 指标项包含:健康率、成功率、转实例、准时率、正常率、运行率