On call管理
-
管理层问能不能直接减on-call人手?从工程质量和风险角度怎么回
凌晨两点,支付链路抖动。值班群里同时炸出142条告警:CPU高、QPS跌、DB连接池满、CDN回源超时、业务自定义阈值触发。原本该两个人轮值,但编制砍掉一个后,只剩你一个人盯着屏幕。前十分钟你在过滤噪音,第三十分钟才意识到是底层存储IO打...
-
告警降噪与及时响应:如何设计一套高效的智能告警系统?
在复杂的现代IT系统中,告警系统是保障业务连续性的“哨兵”。然而,一个设计不当的告警系统,往往会从“忠诚的哨兵”变成“吵闹的狼来了”,导致告警风暴、运维疲劳,甚至让真正的故障被淹没在海量噪音之中。如何设计一套既能高效响应关键事件,又能有效...
-
Grafana告警进阶:探索那些不为人知的通知渠道及其优劣
在监控告警的世界里,Grafana 凭借其强大的可视化能力和灵活的告警机制,赢得了众多技术人员的青睐。我们常用的告警通知方式,无非就是 Email 和 Slack,但你是否知道,Grafana 还支持许多“隐藏”的通知渠道?这些渠道在特定...