diamond

用graphite diamond做监控

懵懂的女人 提交于 2019-12-03 17:36:15
用graphite diamond做监控 文章 开局先贴两个文章,值得一读 很赞的blog 另一篇介绍graphite的文章 恩怨 无论是什么系统,只要上线,就需要运维,这时候很想看一些监控的图表,graphite就很方便的实现了这个需求。 而graphite采用metrics的方式,又有很多其他的tool为他做支持,所监控的不仅仅是机器的一些东西,你可以监控你爬虫的指标, log的INFO,ERROR频次,nginx网站的访问数量等等,基本是你需要监控什么,很容易的就可以做到。 我从2014年初就在自己的TODOList添加了要玩graphite, 陆续玩了3、4次都失败了,原因都是安装里面某些步骤失败, 这两天终于搞成功了,写个博客记录一下。 graphite-web 大部分的安装方式比较简单,都是用pip就可以安装,但是装完后有个坑, 文档 中说使用 pip install graphite-web ,但是pip中的graphite-web太老了, 导致有个cairo,库在ubuntu下打死也装不上,在新的源码中此bug已经修复。我已经提了 issue 1004 因为用的graphite-index,直接拿了他的几张图来看最终效果 安装 我用的是ubuntu, 写在最上面, 并且我假设你了解基本的python语法,用过pip, virtualenv, 没用过也没问题。

#研发解决方案介绍#基于持久化配置中心的业务降级

半世苍凉 提交于 2019-11-27 13:45:03
郑昀 最后更新于2014/4/18 关键词: 业务降级,配置中心,基本可用性, A.业务降级的背景知识: 淘宝就双十一课题曾经讲过: 『 所谓业务降级,就是牺牲非核心的业务功能,保证核心功能的稳定运行。简单来说,要实现优雅的业务降级,需要将功能实现拆分到相对独立的不同代码单元,分优先级进行隔离。 在后台通过开关控制,降级部分非主流程的业务功能 ,减轻系统依赖和性能损耗,从而提升集群的整体吞吐率。 』 主动关闭系统功能的场景: 我们更新系统或数据库刷库时,可能会提出,某天凌晨几点到几点不能下单,几点到几点不能验证,如果都靠人工手动调整、手动开关跳转页面或提示文字的话,非 常不方便。而我们的理念是,日常发生的事情,不能有心理负担,不能成为一件很麻烦甚至需要临时修改代码的事情。所以停服引发的降级,需要方便快捷地做到。 于是,一个集中存储的开关控制这些核心功能全线关闭,可以有。 被动关闭系统功能的场景: 我们都知道,某东在2011年,某客在2012年,某美在2013年,耗费了很多人财物为大促销做准备,结果时间到了,网站宕机宕得死死的。 此时,限制连接数可能会让网站暂时性活过来了,但是 能进来的人不多,销售额上不去,其实还是公司损失 。 在这种被动的场景下,可以力保核心购买流程能走通,保证基本可用性,即确保能够下单和提交支付,保证钱能流进来,同时保证消费验证。 所以业务降级的做法是,