注意闪避!15年IT老兵亲身经历的N个线上故障
作者介绍 二马读书 , 曾任职于阿里巴巴,每日优鲜等互联网公司,任技术总监,15年电商互联网经历。 很多人在面试时,会被问到这样的问题:遇到过什么系统故障?怎么解决的?下面是笔者根据自己15年互联网研发经历总结的多个线上故障真实案例。 本文图不多,但内容很干!理解为主,学以致用! 故障一:JVM频繁FULL GC快速排查 在分享此案例前,先聊聊哪些场景会导致频繁Full GC: 内存泄漏(代码有问题,对象引用没及时释放,导致对象不能及时回收)。 死循环。 大对象。 尤其是大对象,80%以上的情况就是他。 那么大对象从哪里来的呢? 数据库(包括MySQL和MongoDB等NoSQL数据库),结果集太大。 第三方接口传输的大对象。 消息队列,消息太大。 根据多年一线互联网经验,绝大部分情况是数据库大结果集导致。 好,现在我们开始介绍这次线上故障: 在没有任何发布的情况下,POP服务( 接入 第三方商家的服务)突然开始疯狂Full GC,观察堆内存监控没内存泄漏,回滚到前一版本,问题仍然存在,尴尬了!!! 按照常规做法,一般先用jmap导出堆内存快照(jmap -dump:format=b,file=文件名 [pid]),然后用mat等工具分析出什么对象占用了大量空间,再查看相关引用找到问题代码。这种方式定位问题周期会比较长,如果是关键服务,长时间不能定位解决问题,影响太大。