告别监控迁移乱象：从 Zabbix 到 Prometheus，别把旧规则当成新模板

2026/4/13 11:46:45 63 0 0 0

在企业基础设施演进的过程中，监控系统的迁移（例如从传统的 Zabbix 或云厂商的 CloudWatch 转向 Prometheus + Alertmanager 生态）往往被视为“一劳永逸”的升级。然而，许多团队在迁移后不仅没有获得更清晰的观测能力，反而陷入了更严重的告警风暴。

其核心症结在于：迁移不是“Ctrl+C”和“Ctrl+V”，而是一场从底层逻辑到业务认知的重构。

在 Zabbix 等传统监控中，告警通常是基于“主机”和“固定阈值”的。比如：“如果 CPU > 80% 持续 5 分钟，则发送邮件”。

当你进入 Prometheus 的世界时，如果你直接把这几千条规则原封不动地搬过来，你会发现新系统变成了“垃圾场”。Prometheus 是基于高基数标签和时间序列的，它的核心价值在于服务粒度的观测。

避坑准则：映射而非复制。 旧系统的规则清单应仅作为“需求参考源”，而非“配置模板”。你需要根据当前的业务形态，重新审视这些告警是否真的代表了业务受损。

与其关注“CPU 是不是高了”，不如关注“用户请求是不是慢了”。在迁移时，建议优先通过 SLI（服务水平指标）来构建新的规则：

可用性指标（Availability）：
使用 blackbox_exporter 探测。与其监控 100 个进程存活，不如关注一个核心指标：
probe_success == 0
延迟与吞吐（Latency & Throughput）：
不要直接搬迁旧的平均值。利用 Prometheus 的 histogram_quantile 监控长尾效应（如 P99 延迟）：
```
# 计算 5 分钟内 P95 接口响应耗时
histogram_quantile(0.95, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))
```
这种基于 rate 的动态计算，比旧系统死板的绝对值比较更能真实反映业务受损情况。

很多团队迁移后发现通知变得零散且混乱，这是因为忽略了 Alertmanager 的核心组件配置。在迁移时，必须同步设计以下三个逻辑：

分组（Grouping）： 将同一服务、同一集群的告警聚合在一起。如果数据库宕机导致 100 个微服务报错，你应该收到 1 条包含 100 个实例信息的聚合告警，而不是 100 条短信。
抑制（Inhibition）： 建立层级依赖。当数据中心（DC）级别断网告警触发时，自动抑制该 DC 下所有主机的 CPU/磁盘告警，减少干扰。
路由（Routing）： 不同的告警应通过 match 标签去往不同的处理终端。核心业务告警推钉钉/电话，低优先级告警入邮件/看板。

分级梳理： 丢弃旧系统中那些“从来没人看”和“经常被手动关掉”的告警规则。
建立“告警预算”： 每一条规则的上线，都必须明确：如果不处理，会影响哪个业务 SLO？
灰度并行： 在迁移初期，让新旧系统并行运行一段时间。通过对比，验证 Prometheus 捕捉到的指标是否与 Zabbix 的反馈一致，并根据实际流量特征持续优化 PromQL 表达式。

监控系统的迁移本质上是运维文化的升级。Prometheus + Alertmanager 给我们带来的不仅仅是一个工具，而是一套面向 SLO 的方法论。记住，旧系统的规则是为了记录历史，新系统的规则是为了保障未来。 只有彻底摒弃“直接照搬”的懒政思维，才能真正发挥云原生监控的威力。

云原生长工 Prometheus SRE 监控迁移

评论点评