Prometheus

Kuberneters(K8s)CRD资源详解

笑着哭i 提交于 2020-05-09 20:18:01
1、K8S CRD简明及简用: CustomResourceDefinition简介: 在 Kubernetes 中一切都可视为资源,Kubernetes 1.7 之后增加了对 CRD 自定义资源二次开发能力来扩展 Kubernetes API,通过 CRD 我们可以向 Kubernetes API 中增加新资源类型,而不需要修改 Kubernetes 源码来创建自定义的 API server,该功能大大提高了 Kubernetes 的扩展能力。 当你创建一个新的CustomResourceDefinition (CRD)时,Kubernetes API服务器将为你指定的每个版本创建一个新的RESTful资源路径,我们可以根据该api路径来创建一些我们自己定义的类型资源。CRD可以是命名空间的,也可以是集群范围的,由CRD的作用域(scpoe)字段中所指定的,与现有的内置对象一样,删除名称空间将删除该名称空间中的所有自定义对象。customresourcedefinition本身没有名称空间,所有名称空间都可以使用。 Kuberneters 官方文档 1.1、通过crd资源创建自定义资源,即自定义一个Restful API: $ vi resourcedefinition.yaml: apiVersion : apiextensions . k8s . io / v1beta1

映客上云 助力《"疫"战到底》系列课程吸引数千万用户观看

谁说胖子不能爱 提交于 2020-05-09 13:05:13
云栖号案例库: 【点击查看更多上云案例】 不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 公司介绍 北京蜜莱坞网络科技有限公司旗下的映客直播是中国领先的移动端直播平台,用户量超过2亿。2015年5月,核心产品映客App正式上线,为用户提供娱乐、时尚及生动的实时互动平台。平台可让用户以多种方式互动,例如赠送虚拟物品、实时聊天、即时讯息或私信沟通及同玩社交游戏。映客让用户可随时随地参与直播,用户可通过直播平台公开交流、互动和分享。2018年7月12日,映客在港交所正式挂牌交易,成为港交所娱乐直播第一股。上市既为映客提供了资金来源,亦为映客未来提供了资源与渠道支持。除核心直播业务外,映客逐渐建立起丰富且优质的产品矩阵,以满足垂直领域用户的多元化娱乐需求。 在新冠疫情期间,映客的用户数量剧增,也引入了以防控知识节目《"疫"战到底》为代表的一系列精品课程,吸引数千万用户同时观看。 业务痛点 在直播推荐,排行榜等业务场景中,如果出现了操作卡顿等用户反馈,需要第一时间确认是前端应用问题还是后台推荐服务问题。 对直播间的首屏事件进行统计分析,并迅速定位性能瓶颈也是确保用户留存率的关键技术手段。 上云价值 通过ARMS前端监控,能从页面打开速度、页面稳定性和外部服务调用成功率这三个方面监测直播App的健康度,从而: 多维度洞察用户的真实使用体验

比邻东方上云 从零开始完成压测和监控高可用体系建设

假如想象 提交于 2020-05-09 12:04:57
云栖号案例库: 【点击查看更多上云案例】 不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 公司介绍 新东方教育科技集团,由1993年11月16日成立的北京新东方学校发展壮大而来,目前集团以语言培训为核心,拥有短期培训系统、基础教育系统、文化传播系统、科技产业系统、咨询服务系统等多个发展平台,是一家集教育培训、教育产品研发、教育服务等于一体的大型综合性教育科技集团。新东方教育科技集团于2006年9月7日在美国纽约证券交易所成功上市,成为中国大陆首家海外上市的教育培训机构。 比邻东方是新东方旗下独资在线外教直播公司,根据新东方23年教学体系反馈,与国际资深教材编写团队共同打造国际小学课程体系,为5~12岁中国学生量身定做国际小学3人在线外教课程。 为了响应教育部保障防控疫情期间学生“停课不停学”的号召,2020年2月,新东方快速整合集团内外优质教师资源和课程资源,面向新东方所有中小学学员推出免费的全年级全学科同步线上课程及心理课程,面向中小学生家长推出免费的家庭教育线上课程,为社会提供更多样的公益性优质学习资源,助力学生及家长在延长的假期里共同进步和成长。 业务痛点 新东方青少外教直播品牌比邻东方,2月10日晚8点开始在线选课及促销活动,预计在活动期间会有严重的流量压力。 除流量压力外,还需要保证活动期间主流程的可用性及系统的稳定性。

Tungsten Fabric入门宝典丨主流监控系统工具的集成

℡╲_俬逩灬. 提交于 2020-05-09 08:53:58
Tungsten Fabric入门宝典系列文章,来自技术大牛倾囊相授的实践经验,由TF中文社区为您编译呈现,旨在帮助新手深入理解TF的运行、安装、集成、调试等全流程。如果您有相关经验或疑问,欢迎与我们互动,并与社区极客们进一步交流。更多TF技术文章,请点击公号底部按钮>学习>文章合集。 作者:Tatsuya Naganawa 译者:TF编译组 尽管Tungsten Fabric具有不错的监视/警报功能,但可能需要将它们集成到完整的监视系统中。 让我举例说明如何将它们与Promethesus和EFK集成。 Prometheus (编者按:Prometheus 是一个开源监控系统,几乎所有云原生系统都以 Prometheus的指标格式输出运行时的监控信息。) 为了监视和可视化Tungsten Fabric系统中发生的情况,prometheus将是一种可能的选择。 一些工具(例如zabbix)支持抓取prometheus格式,因此在监视工具中作为通用格式也很有用: https://www.zabbix.com/documentation/4.2/manual/config/items/itemtypes/prometheus 要按prometheus进行抓取,需要以Prometheus的格式从Tungsten Fabric导出相关指标,有两种方法可以实现此目的: 直接从内省HTTP

使用 Micrometer 记录 Java 应用性能指标

て烟熏妆下的殇ゞ 提交于 2020-05-08 17:20:57
https://www.ibm.com/developerworks/cn/java/j-using-micrometer-to-record-java-metric/index.html 运行良好的应用离不开对性能指标的收集。这些性能指标可以有效地对生产系统的各方面行为进行监控,帮助运维人员掌握系统运行状态和查找问题原因。性能指标监控通常由两个部分组成:第一个部分是性能指标数据的收集,需要在应用程序代码中添加相应的代码来完成;另一个部分是后台监控系统,负责对数据进行聚合计算和提供 API 接口。在应用中使用计数器、计量仪和计时器来记录关键的性能指标。在专用的监控系统中对性能指标进行汇总,并生成相应的图表来进行可视化分析。 目前已经有非常多的监控系统,常用的如 Prometheus、New Relic、Influx、Graphite 和 Datadog,每个系统都有自己独特的数据收集方式。这些监控系统有的是需要自主安装的软件,有的则是云服务。它们的后台实现千差万别,数据接口也是各有不同。在指标数据收集方面,大多数时候都是使用与后台监控系统对应的客户端程序。此外,这些监控系统一般都会提供不同语言和平台使用的第三方库,这不可避免的会带来供应商锁定的问题。一旦针对某监控系统的数据收集代码添加到应用程序中,当需要切换监控系统时,也要对应用程序进行大量的修改。Micrometer

Prometheus分布式监控

好久不见. 提交于 2020-05-08 16:31:24
一、概述 prometheus安装在阿里云上面,监控节点在公司内部机房,2个网络直接是不互通的。 环境说明 阿里云服务器: 操作系统:centos 7.6 数量:1台 公司内部服务器 操作系统:centos 7.6 数量:1台 拓扑图 说明: 1. 公司内部服务器安装node-exporter插件,收集主机信息,通过调用curl命令,将收集的数据以POST方式发送给Pushgateway 2. Pushgateway负责接收数据 3. Prometheus从Pushgateway中拉取数据,结合Grafana做数据展示。 二、部署操作 阿里云服务器 Prometheus和Pushgateway,是直接docker部署的。具体安装操作,请参考链接: https://www.cnblogs.com/xiao987334176/p/9930517.html https://www.cnblogs.com/xiao987334176/p/9933963.html 这里重点要说明的是Prometheus配置Pushgateway时,必须要加一个参数 honor_labels: true - job_name: ' pushgateway ' honor_labels: true static_configs: - targets: [ ' 172.18.156.172:9091 ' ]

get time that passed since the last increase of Prometheus counter

独自空忆成欢 提交于 2020-05-08 11:57:06
问题 Consider a Prometheus metric foo_total that counts the total amount of occurences of an event foo , i.e. the metric will only increase as long as the providing service isn't restarted. Is there any way to get the timespan (e.g. amount of seconds) since the last increase of that metric? I know that due to the scrape period, the value for sure isn't that accurate, but an accurancy of a couple of minutes should be sufficent for me. Background : I want to use that kind of query in Grafana to have

get time that passed since the last increase of Prometheus counter

生来就可爱ヽ(ⅴ<●) 提交于 2020-05-08 11:57:00
问题 Consider a Prometheus metric foo_total that counts the total amount of occurences of an event foo , i.e. the metric will only increase as long as the providing service isn't restarted. Is there any way to get the timespan (e.g. amount of seconds) since the last increase of that metric? I know that due to the scrape period, the value for sure isn't that accurate, but an accurancy of a couple of minutes should be sufficent for me. Background : I want to use that kind of query in Grafana to have

get time that passed since the last increase of Prometheus counter

核能气质少年 提交于 2020-05-08 11:56:03
问题 Consider a Prometheus metric foo_total that counts the total amount of occurences of an event foo , i.e. the metric will only increase as long as the providing service isn't restarted. Is there any way to get the timespan (e.g. amount of seconds) since the last increase of that metric? I know that due to the scrape period, the value for sure isn't that accurate, but an accurancy of a couple of minutes should be sufficent for me. Background : I want to use that kind of query in Grafana to have

【云栖号案例 | 文化产业】映客上云 助力《"疫"战到底》系列课程吸引数千万用户观看

血红的双手。 提交于 2020-05-07 14:44:40
云栖号案例库: 【点击查看更多上云案例】 不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 公司介绍 北京蜜莱坞网络科技有限公司旗下的映客直播是中国领先的移动端直播平台,用户量超过2亿。2015年5月,核心产品映客App正式上线,为用户提供娱乐、时尚及生动的实时互动平台。平台可让用户以多种方式互动,例如赠送虚拟物品、实时聊天、即时讯息或私信沟通及同玩社交游戏。映客让用户可随时随地参与直播,用户可通过直播平台公开交流、互动和分享。2018年7月12日,映客在港交所正式挂牌交易,成为港交所娱乐直播第一股。上市既为映客提供了资金来源,亦为映客未来提供了资源与渠道支持。除核心直播业务外,映客逐渐建立起丰富且优质的产品矩阵,以满足垂直领域用户的多元化娱乐需求。 在新冠疫情期间,映客的用户数量剧增,也引入了以防控知识节目《"疫"战到底》为代表的一系列精品课程,吸引数千万用户同时观看。 业务痛点 在直播推荐,排行榜等业务场景中,如果出现了操作卡顿等用户反馈,需要第一时间确认是前端应用问题还是后台推荐服务问题。 对直播间的首屏事件进行统计分析,并迅速定位性能瓶颈也是确保用户留存率的关键技术手段。 上云价值 通过ARMS前端监控,能从页面打开速度、页面稳定性和外部服务调用成功率这三个方面监测直播App的健康度,从而: 多维度洞察用户的真实使用体验