Kubernetes：Prometheus + Grafana 监控 Pod 内存并设置资源限制

2025/10/23 13:32:37 107 0 0 0

Kubernetes Pod 内存监控与资源限制最佳实践

在 Kubernetes 环境中，有效监控 Pod 的内存使用情况并设置合理的资源限制至关重要。这可以帮助你优化资源利用率，防止 Pod 因内存不足而被驱逐 (OOMKilled)。本教程将指导你如何使用 Prometheus 和 Grafana 监控 Pod 内存，并设置适当的资源限制和请求。

1. 前提条件

已部署 Kubernetes 集群
已安装并配置 Prometheus 和 Grafana
已安装 Kubernetes Metrics Server (用于提供 Pod 资源指标)

2. 部署 Kubernetes Metrics Server

Metrics Server 提供集群中 Pod 和节点的资源使用情况。如果尚未安装，可以使用以下命令进行部署：

kubectl apply -f https://github.com/kubernetes-sigs/metrics-server/releases/latest/download/components.yaml

验证 Metrics Server 是否正常运行：

kubectl get deployment metrics-server -n kube-system

3. 配置 Prometheus 抓取 Kubernetes 指标

Prometheus 需要配置才能从 Kubernetes 集群中抓取指标。这通常涉及配置 Prometheus 的 prometheus.yml 文件，添加 Kubernetes 服务发现配置。

以下是一个示例配置片段，用于抓取 kubelet 的 cAdvisor 指标，其中包含 Pod 的内存使用情况：

scrape_configs:
  - job_name: 'kubernetes-pods'
    kubernetes_sd_configs:
      - role: pod
    relabel_configs:
      - source_labels: [__meta_kubernetes_pod_container_name]
        regex: '.*'
        action: keep
      - source_labels: [__meta_kubernetes_pod_name]
        action: replace
        target_label: pod
      - source_labels: [__meta_kubernetes_pod_namespace]
        action: replace
        target_label: namespace
    metric_relabel_configs:
      - source_labels: [__name__]
        regex: 'container_memory_rss'
        action: keep

注意: 根据你的 Prometheus 部署方式 (例如使用 Operator)，配置方法可能有所不同。确保 Prometheus 可以访问 kubelet 的 /metrics/cadvisor 端点。

4. 在 Grafana 中创建仪表盘

配置 Prometheus 后，就可以在 Grafana 中创建仪表盘来可视化 Pod 的内存使用情况。

添加 Prometheus 数据源: 在 Grafana 中添加 Prometheus 作为数据源，并配置 Prometheus 的地址。
创建仪表盘: 创建一个新的 Grafana 仪表盘。
添加面板: 添加一个面板，选择 "Graph" 作为可视化类型。
配置查询: 使用 Prometheus 查询语言 (PromQL) 来查询 Pod 的内存使用情况。

以下是一些有用的 PromQL 查询示例：

单个 Pod 的内存使用量 (字节):

container_memory_rss{pod="<pod_name>", namespace="<namespace>"}

所有 Pod 的总内存使用量 (字节):
```
sum(container_memory_rss)
```
按 Namespace 分组的内存使用量 (字节):
```
sum(container_memory_rss) by (namespace)
```
Pod 的内存使用率 (需要先获取 Pod 的内存限制):
```
container_memory_rss{pod="<pod_name>", namespace="<namespace>"} / kube_pod_container_resource_limits_memory_bytes{pod="<pod_name>", namespace="<namespace>"}
```
注意: kube_pod_container_resource_limits_memory_bytes 指标需要 Kubernetes 的 kube-state-metrics 组件提供。

你可以根据需求创建不同的面板，例如：

折线图：显示一段时间内 Pod 的内存使用趋势。
柱状图：显示不同 Pod 的内存使用对比。
Gauge 图：显示 Pod 的当前内存使用量。

5. 设置资源限制和请求

为了防止 Pod 因内存不足而被驱逐，需要设置合理的资源限制 (limits) 和请求 (requests)。

Requests: Pod 启动时，Kubernetes 会尝试分配至少 requests 数量的资源。如果集群资源不足，Pod 可能无法启动。
Limits: Pod 允许使用的最大资源量。如果 Pod 尝试使用的资源超过 limits，可能会被 OOMKilled。

在 Pod 的 YAML 文件中，可以通过 resources 字段来设置资源限制和请求。

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
spec:
  containers:
    - name: my-container
      image: my-image
      resources:
        requests:
          memory: "256Mi"
        limits:
          memory: "512Mi"

最佳实践:

根据实际情况设置资源限制和请求: 通过监控 Pod 的内存使用情况，了解其真实需求，并据此设置资源限制和请求。
Requests <= Limits: requests 应该小于或等于 limits。
逐步调整: 不要一次性设置过高的资源限制，而是逐步调整，观察效果。
考虑垂直自动缩放 (Vertical Pod Autoscaling, VPA): VPA 可以根据 Pod 的实际资源使用情况自动调整其资源限制和请求。

6. 监控 OOMKilled 事件

即使设置了资源限制，Pod 仍然可能因为各种原因被 OOMKilled。因此，需要监控 OOMKilled 事件，以便及时发现并解决问题。

可以通过以下命令查看 Pod 的事件：

kubectl describe pod <pod_name> -n <namespace>

查看事件列表中是否有 OOMKilled 相关的事件。

此外，还可以使用 Prometheus 查询来监控 OOMKilled 事件的发生次数：

kube_pod_container_status_terminated_reason{reason="OOMKilled"}

7. 总结

通过本文，你学习了如何使用 Prometheus 和 Grafana 监控 Kubernetes Pod 的内存使用情况，并设置合理的资源限制和请求，以防止 Pod 因内存不足而被驱逐。记住，监控和资源管理是一个持续的过程，需要根据实际情况不断调整和优化。

K8S玩家 Kubernetes Prometheus Grafana