告警路由
-
别只盯CPU了,好的监控告警得能讲出业务故事
凌晨三点,钉钉群炸了。一条告警写着:“订单服务节点 CPU 使用率突破 92%,持续 5 分钟。”运维切了流量,研发查了慢 SQL,产品还在睡觉。第二天复盘才发现,真正受影响的是“海外信用卡支付通道”,成功率掉了 8%,但没人第一时间把 ...
-
Alertmanager告警分组策略:group_wait、group_interval与repeat_interval参数详解及最佳实践
Alertmanager告警分组策略:group_wait、group_interval与repeat_interval参数详解及最佳实践 在复杂的监控系统中,告警泛滥是一个常见问题。Alertmanager作为Prometheus的...