为什么Nagios会那么吵?你又能做些什么呢?(1)
如果你受困于 Nagios 的告警洪潮中不能自拔,那么这两篇连载博客就是为你而生的。让我们来详细的阐述下这个问题! 运维人员都有着独立的监控工具,因此会经常受到 Nagios 告警吵闹的影响。很多运维人员对 Nagios 都是爱恨交加的,Nagios 给了你实时的可见性,可以了解你的 IT 基础设施的内部运作。用 Naigos,你可以辨认出哪一台主机内存不足,哪台服务器会占用太多 CPU 周期,哪一个应用由于访问时间太长而跳转离开。你也能够足够早的得到告警信息,在他们影响最终用户之前解决掉问题,最大限度的让 Nagios 为你而战。 ######埋在干草堆里的针 然而这些都是理论上的,不难发现,Nagios 最终导致的问题跟它解决掉的问题其实是一样多的。让我们退一小步来讲,Nagios 实际上并不会引起问题,只是它会使运维团队鉴别出真正的问题时更加困难。举个例子,当小孩子哭闹时,并不一定是真的做错了什么,他们只是想被关注,或是因为他们经验有限,无法处理一件微不足道的小事,而在他们看来这却是一个大大的问题,所以会使劲儿的哭。作为父母,我们知道摔伤的膝盖只需要一个创可贴,但在疼痛来临的那一刻,你的孩子会认为他可能永远无法再走路了。 处理 Nagios 告警就像哄一个哭泣的孩子一样,从外观上看,我们并没有什么好的方法能够轻松区分一个摔伤的膝盖和一个折断的腿。因为 Nagios