SRE 工程师实战：电商 Kubernetes 集群监控告警方案设计避坑指南

2025/5/10 13:33:34 138 0 0 0

作为一名 SRE（站点可靠性工程师），我深知保障大型电商网站的稳定运行是我们的核心职责。Kubernetes (K8s) 集群作为电商平台的基础设施，其监控告警体系的完备性直接关系到用户体验和业务连续性。今天，我就以一个大型电商网站的 Kubernetes 集群为例，来聊聊如何设计一套完善的监控告警方案，避免踩坑，提升集群的可靠性。

1. 监控指标体系构建：从宏观到微观，全面覆盖

首先，我们需要明确监控哪些指标。监控指标体系的设计要遵循“由外到内，由粗到细”的原则，从宏观层面到微观层面，全面覆盖 Kubernetes 集群的各个方面。以下是一些关键的监控指标分类：

集群层面：
- CPU 使用率： 集群整体 CPU 使用情况，判断资源是否充足，是否存在瓶颈。
- 内存使用率： 集群整体内存使用情况，避免 OOM (Out Of Memory) 风险。
- 磁盘使用率： 各节点磁盘使用情况，防止磁盘空间耗尽。
- 节点状态： 节点是否 Ready，是否存在 NotReady 节点，影响服务可用性。
- Pod 总数： 集群中 Pod 的总数，反映集群规模和负载情况。
命名空间层面：
- 资源配额使用率： 各命名空间 CPU、内存等资源配额使用情况，避免资源抢占。
- Pod 数量： 各命名空间下 Pod 数量，监控应用规模变化。
Pod 层面：
- CPU 使用率： 单个 Pod 的 CPU 使用情况，定位 CPU 密集型应用。
- 内存使用率： 单个 Pod 的内存使用情况，排查内存泄漏问题。
- 磁盘 I/O： Pod 的磁盘读写速度，判断是否存在 I/O 瓶颈。
- 网络流量： Pod 的网络流入流出速率，监控网络异常。
- 重启次数： Pod 的重启次数，反映应用稳定性问题。
- 健康检查状态： liveness 和 readiness 探针状态，判断 Pod 是否健康。
容器层面：
- CPU 使用率： 单个容器的 CPU 使用情况，精确定位资源消耗大户。
- 内存使用率： 单个容器的内存使用情况，排查容器内部内存问题。
- 文件系统 I/O： 容器的文件系统读写速度，分析 I/O 瓶颈。
应用层面：
- 请求延迟： 应用的请求响应时间，用户体验的关键指标。
- 错误率： 应用的错误请求比例，反映服务质量。
- 吞吐量： 应用每秒处理的请求数，衡量应用性能。
- 自定义指标： 根据业务需求自定义的指标，例如订单创建成功率、支付成功率等。

案例： 假设我们发现集群 CPU 使用率持续偏高，这时就需要逐层下钻分析。首先查看是哪个命名空间的 CPU 使用率较高，然后定位到具体的 Pod，最后分析 Pod 内哪个容器的 CPU 占用率最高。通过这种层层剥离的方式，可以快速找到问题的根源。

2. 监控工具选型：Prometheus + Grafana，黄金搭档

监控工具的选择至关重要，直接影响到监控数据的采集、存储、展示和告警。在 Kubernetes 集群监控领域，Prometheus + Grafana 已经成为事实上的标准。

Prometheus： 是一款开源的监控和告警工具，具有强大的数据采集、存储和查询能力。它采用 Pull 模式采集监控数据，通过 Exporter 暴露各种指标，并使用 PromQL (Prometheus Query Language) 进行数据查询和分析。
Grafana： 是一款开源的数据可视化工具，可以将 Prometheus 采集到的数据以图表的形式展示出来，方便用户直观地了解集群的运行状态。

Prometheus 的优势：

多维度数据模型： Prometheus 使用多维度数据模型，可以灵活地对监控数据进行聚合和分析。
强大的 PromQL： PromQL 是一种强大的查询语言，可以方便地查询和处理监控数据。
服务发现： Prometheus 可以自动发现 Kubernetes 集群中的服务，并采集其监控数据。
易于集成： Prometheus 可以与各种 Exporter 集成，采集各种类型的监控数据。

Grafana 的优势：

丰富的图表类型： Grafana 支持各种图表类型，可以满足不同的可视化需求。
灵活的告警规则： Grafana 可以根据监控数据设置告警规则，及时通知相关人员。
易于使用： Grafana 的界面简洁易用，即使是新手也能快速上手。

案例： 我们使用 Prometheus Operator 来简化 Prometheus 的部署和管理。Prometheus Operator 可以自动创建和管理 Prometheus 实例，并提供了一系列 CRD (Custom Resource Definition)，方便用户配置监控规则和告警规则。

3. 告警规则设计：精准告警，避免误报

告警规则的设计是监控告警方案的核心，直接影响到告警的准确性和及时性。好的告警规则应该能够及时发现问题，避免误报和漏报。

告警规则设计原则：

基于业务： 告警规则应该基于业务需求，关注对业务影响较大的指标。
分级告警： 告警应该分为不同的级别，例如 Info、Warning、Error、Critical，根据问题的严重程度采取不同的处理方式。
设置合理的阈值： 阈值的设置要合理，避免过于敏感导致误报，或者过于宽松导致漏报。
考虑时间窗口： 告警应该考虑时间窗口，例如 CPU 使用率持续 5 分钟超过 80% 才触发告警，避免瞬时波动导致误报。
添加告警说明： 告警信息应该包含详细的说明，方便相关人员快速了解问题的原因和解决方案。

常见告警场景：

节点故障： 节点 NotReady，影响服务可用性。
Pod 异常： Pod CrashLoopBackOff，应用无法正常启动。
资源不足： CPU、内存使用率过高，影响应用性能。
请求延迟过高： 应用响应时间过长，影响用户体验。
错误率过高： 应用错误请求比例过高，反映服务质量问题。

告警示例（PromQL）：

# CPU 使用率超过 80% 告警
sum(rate(container_cpu_usage_seconds_total{namespace="production"}[5m])) by (pod) > 0.8

# 内存使用率超过 90% 告警
sum(container_memory_rss{namespace="production"}) by (pod) / sum(container_spec_memory_limit_bytes{namespace="production"}) by (pod) > 0.9

# Pod 重启次数超过 3 次告警
increase(kube_pod_container_status_restarts_total{namespace="production"}[1h]) > 3

案例： 针对电商网站的秒杀活动，我们需要设置更严格的告警规则。例如，当某个服务的请求延迟超过 200ms 时，立即触发 Critical 级别的告警，并通知相关人员紧急处理。

4. 告警通知：及时触达，多渠道支持

告警通知的及时性和可靠性至关重要，确保相关人员能够第一时间收到告警信息并采取行动。我们需要选择合适的告警通知渠道，并配置合理的通知策略。

告警通知渠道：

邮件： 传统的告警通知方式，适用于非紧急告警。
短信： 紧急告警的通知方式，确保及时触达相关人员。
电话： 极其紧急的告警通知方式，适用于影响业务连续性的重大问题。
IM 工具： 例如 Slack、钉钉、企业微信等，方便团队协作处理告警。
Webhook： 可以将告警信息发送到自定义的 HTTP endpoint，实现与其他系统的集成。

告警通知策略：

分级通知： 不同级别的告警发送到不同的通知渠道，例如 Critical 级别的告警发送到短信和电话，Warning 级别的告警发送到 IM 工具。
告警抑制： 避免重复告警，例如在问题解决之前，只发送一次告警通知。
告警升级： 如果告警长时间未处理，自动升级告警级别，并通知更高级别的负责人。
告警静默： 在进行维护操作时，可以临时关闭告警通知。

Alertmanager： Prometheus 生态系统中专门用于处理告警的组件，它可以对告警信息进行分组、抑制、路由和发送。

案例： 我们使用 Alertmanager 将告警信息发送到 Slack 频道，方便团队成员及时了解集群的运行状态，并进行协作处理。

5. 监控数据持久化：长期存储，数据分析

监控数据的持久化存储对于问题排查、容量规划和性能优化至关重要。Prometheus 默认将监控数据存储在本地磁盘，不适合长期存储。我们需要将监控数据存储到外部存储系统中。

常见的监控数据存储方案：

Thanos： Prometheus 官方推荐的长期存储方案，可以将 Prometheus 的监控数据存储到对象存储系统中，例如 AWS S3、Google Cloud Storage、Azure Blob Storage。
VictoriaMetrics： 一款高性能的时序数据库，可以作为 Prometheus 的长期存储方案。
InfluxDB： 另一款流行的时序数据库，也可以作为 Prometheus 的长期存储方案。

选择存储方案的考虑因素：

存储容量： 存储方案的容量应该能够满足长期存储的需求。
查询性能： 存储方案的查询性能应该足够高，能够满足快速查询的需求。
成本： 存储方案的成本应该合理，避免过高的存储成本。
易用性： 存储方案应该易于部署和管理。

案例： 我们使用 Thanos 将 Prometheus 的监控数据存储到 AWS S3 中，并使用 Thanos Query 统一查询多个 Prometheus 实例的数据。

6. 可视化看板：一览全局，快速定位

可视化看板可以将监控数据以图表的形式展示出来，方便用户直观地了解集群的运行状态。我们需要根据业务需求，创建各种可视化看板。

常见的可视化看板：

集群总览： 展示集群的整体运行状态，例如 CPU 使用率、内存使用率、节点状态、Pod 数量等。
应用监控： 展示各个应用的运行状态，例如请求延迟、错误率、吞吐量等。
资源监控： 展示各个节点的资源使用情况，例如 CPU 使用率、内存使用率、磁盘 I/O 等。
数据库监控： 展示数据库的运行状态，例如连接数、查询速度、锁等待等。
自定义看板： 根据业务需求自定义的看板，例如订单创建成功率、支付成功率等。

Grafana Dashboard： Grafana 提供了丰富的 Dashboard 模板，可以直接使用，也可以根据需求自定义 Dashboard。

案例： 我们创建了一个集群总览 Dashboard，展示了集群的 CPU 使用率、内存使用率、节点状态、Pod 数量等指标。通过这个 Dashboard，我们可以快速了解集群的整体运行状态。

7. 监控告警最佳实践：持续优化，不断完善

监控告警方案的设计不是一蹴而就的，需要持续优化和完善。我们需要定期 review 告警规则，分析告警事件，并根据实际情况调整告警策略。

最佳实践：

自动化： 尽可能地自动化监控告警流程，例如使用 Prometheus Operator 自动部署 Prometheus，使用 Alertmanager 自动处理告警。
标准化： 制定统一的监控指标命名规范和告警规则，方便团队协作。
文档化： 编写详细的监控告警文档，方便新成员快速上手。
培训： 对团队成员进行监控告警培训，提高大家对监控告警的重视程度。
演练： 定期进行故障演练，检验监控告警方案的有效性。

案例： 我们定期 review 告警规则，发现有些告警规则过于敏感，导致误报较多。于是，我们调整了这些告警规则的阈值，降低了误报率。

总结

设计一套完善的 Kubernetes 集群监控告警方案是一项复杂而重要的任务。我们需要全面考虑各种因素，例如监控指标体系、监控工具选型、告警规则设计、告警通知、监控数据持久化、可视化看板等。只有不断优化和完善监控告警方案，才能确保 Kubernetes 集群的稳定运行，保障业务的连续性。

希望我的经验分享能够帮助你更好地构建 Kubernetes 集群的监控告警体系，避免踩坑，提升集群的可靠性。

K8s 运维老司机 Kubernetes 监控告警方案 SRE 实践