透过CAT,来看分布式实时监控系统的设计与实现
2011年底,我加入大众点评网,出于很偶然的机会,决定开发CAT,为各个业务线打造分布式实时监控系统,CAT的核心概念源自eBay闭源系统CAL----eBay的几大法宝之一。 在当今互联网时代,业务需求旺盛,开发团队往往采用scrum等敏捷开发流程,加班加点快速迭代以满足业务需求,是常态。采用分布式系统设计和服务化,由多台机器协作来共同完成用户请求,是典型的解决方案。网站故障频发,内部关系错综复杂,故障定位缓慢,甚至找不到问题根源,也是常有的事。虽然已经有很多日志监控工具,或许单个工具功能还不错,但整体服务化水平参差不齐,工具间不能互通互联;另一方面,由于日志数据量大,且分散,使得查找问题根源基本靠人品。 这些也是我们要开发CAT的初衷。 CAT简介 CAT(Central Application Tracking),是基于纯Java开发的分布式实时监控系统。开源代码托管在GitHub(搜索CAT即可),作者是吴其敏(qmwu2000)和尤勇(youyong205)。 产品相关分享在网上可以找到: 看大众点评如何通过实时监控系统CAT打造7*24服务-尤勇@QCon高可用架构群 2015 分布式监控系统的设计与实现-尤勇@QCon上海2015 大众点评网监控系统架构剖析-尤勇@2013第二届华东架构师大会 大众点评网监控平台剖析-吴其敏@QCon杭州2012 CAT现状