基于 Pod 资源使用率的 Kubernetes 自动污点管理实践

2025/6/23 12:08:06 102 0 0 0

基于 Pod 资源使用率的 Kubernetes 自动污点管理实践

在 Kubernetes 集群中，污点（Taint）和容忍度（Toleration）是一种强大的机制，用于控制 Pod 在节点上的调度行为。通常情况下，我们需要手动为节点添加或删除污点，但这种方式缺乏灵活性，无法根据集群的实际负载情况进行动态调整。本文将介绍如何基于 Pod 的资源使用情况，实现 Kubernetes 的自动污点管理，从而实现更精细化的调度策略。

1. 为什么需要自动污点管理？

在生产环境中，集群的负载是不断变化的。例如，某个节点上的 Pod 突然开始消耗大量的 CPU 资源，导致节点负载过高。此时，如果我们不采取任何措施，新的 Pod 仍然可能被调度到该节点上，进一步加剧节点的负载压力，甚至导致服务不稳定。

通过自动污点管理，我们可以根据节点的资源使用情况，动态地为节点添加或删除污点。当节点负载过高时，自动添加污点，防止新的 Pod 调度到该节点上；当节点负载恢复正常时，自动删除污点，允许新的 Pod 调度。

2. 实现原理

实现 Kubernetes 自动污点管理的核心思路是：

监控节点资源使用情况：我们需要定期监控节点的 CPU、内存等资源的使用情况。
设置阈值：根据实际需求，设置资源使用率的阈值。例如，当 CPU 利用率超过 80% 时，认为节点负载过高。
动态添加/删除污点：当节点资源使用率超过阈值时，自动为节点添加污点；当节点资源使用率低于阈值时，自动删除污点。

3. 实现步骤

下面介绍一种基于 Prometheus 和 Kubernetes API 实现自动污点管理的方案。

3.1 部署 Prometheus

Prometheus 是一款流行的开源监控系统，可以用于收集 Kubernetes 集群的各种指标数据。如果你的集群还没有部署 Prometheus，可以参考官方文档进行部署。

3.2 编写监控脚本

我们需要编写一个脚本，用于定期查询 Prometheus，获取节点的 CPU 利用率，并根据阈值动态添加或删除污点。以下是一个示例脚本（Python）：

import os
import time
import requests
from kubernetes import client, config

# Prometheus 地址
PROMETHEUS_URL = os.environ.get("PROMETHEUS_URL", "http://prometheus.default.svc.cluster.local:9090")
# CPU 利用率阈值
CPU_THRESHOLD = float(os.environ.get("CPU_THRESHOLD", "80"))
# 污点 Key
TAINT_KEY = os.environ.get("TAINT_KEY", "node.kubernetes.io/pressure")
# 污点 Value
TAINT_VALUE = os.environ.get("TAINT_VALUE", "true")
# 污点 Effect
TAINT_EFFECT = os.environ.get("TAINT_EFFECT", "NoSchedule")
# 监控间隔（秒）
MONITOR_INTERVAL = int(os.environ.get("MONITOR_INTERVAL", "60"))


def get_node_cpu_usage(node_name):
    query = f'100 - (avg by (instance) (irate(node_cpu_seconds_total{{mode="idle", instance=~"{node_name}.*"}}[5m])) * 100)'
    url = f'{PROMETHEUS_URL}/api/v1/query?query={query}'
    try:
        response = requests.get(url)
        response.raise_for_status()
        result = response.json()
        if result['status'] == 'success' and len(result['data']['result']) > 0:
            return float(result['data']['result'][0]['value'][1])
        else:
            print(f"无法获取节点 {node_name} 的 CPU 利用率：{result}")
            return None
    except requests.exceptions.RequestException as e:
        print(f"请求 Prometheus 失败：{e}")
        return None


def taint_node(node_name):
    config.load_incluster_config()
    v1 = client.CoreV1Api()
    node = v1.read_node(name=node_name)
    taint = client.V1Taint(key=TAINT_KEY, value=TAINT_VALUE, effect=TAINT_EFFECT)
    if node.spec.taints is None:
        node.spec.taints = [taint]
    else:
        # 检查污点是否已存在
        for t in node.spec.taints:
            if t.key == TAINT_KEY and t.value == TAINT_VALUE and t.effect == TAINT_EFFECT:
                print(f"节点 {node_name} 已经存在污点 {TAINT_KEY}={TAINT_VALUE}:{TAINT_EFFECT}")
                return
        node.spec.taints.append(taint)

    try:
        v1.patch_node(name=node_name, body=node)
        print(f"成功为节点 {node_name} 添加污点 {TAINT_KEY}={TAINT_VALUE}:{TAINT_EFFECT}")
    except client.exceptions.ApiException as e:
        print(f"为节点 {node_name} 添加污点失败：{e}")


def untaint_node(node_name):
    config.load_incluster_config()
    v1 = client.CoreV1Api()
    node = v1.read_node(name=node_name)
    if node.spec.taints is None:
        print(f"节点 {node_name} 没有污点")
        return
    taints = []
    for t in node.spec.taints:
        if t.key == TAINT_KEY and t.value == TAINT_VALUE and t.effect == TAINT_EFFECT:
            continue
        taints.append(t)
    node.spec.taints = taints
    try:
        v1.patch_node(name=node_name, body=node)
        print(f"成功为节点 {node_name} 移除污点 {TAINT_KEY}={TAINT_VALUE}:{TAINT_EFFECT}")
    except client.exceptions.ApiException as e:
        print(f"为节点 {node_name} 移除污点失败：{e}")


if __name__ == "__main__":
    while True:
        config.load_incluster_config()
        v1 = client.CoreV1Api()
        node_list = v1.list_node()
        for node in node_list.items:
            node_name = node.metadata.name
            cpu_usage = get_node_cpu_usage(node_name)
            if cpu_usage is not None:
                if cpu_usage > CPU_THRESHOLD:
                    taint_node(node_name)
                else:
                    untaint_node(node_name)
        time.sleep(MONITOR_INTERVAL)

代码解释：

get_node_cpu_usage(node_name)：查询 Prometheus，获取指定节点的 CPU 利用率。
taint_node(node_name)：为指定节点添加污点。
untaint_node(node_name)：为指定节点移除污点。
主循环：定期获取所有节点的 CPU 利用率，并根据阈值添加或删除污点。

注意事项：

需要安装 requests 和 kubernetes Python 库：pip install requests kubernetes
需要配置 Kubernetes 集群的访问权限，例如使用 ServiceAccount。
可以根据实际需求修改 CPU 利用率阈值、污点 Key、Value 和 Effect。

3.3 部署监控脚本

将监控脚本打包成 Docker 镜像，并部署到 Kubernetes 集群中。可以使用 Deployment 或 CronJob 等方式进行部署。

Dockerfile 示例：

FROM python:3.9-slim-buster

WORKDIR /app

COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

COPY auto-taint.py .

CMD ["python", "auto-taint.py"]

requirements.txt 示例：

requests
kubernetes

Deployment 示例：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: auto-taint
  labels:
    app: auto-taint
spec:
  replicas: 1
  selector:
    matchLabels:
      app: auto-taint
  template:
    metadata:
      labels:
        app: auto-taint
    spec:
      serviceAccountName: auto-taint
      containers:
      - name: auto-taint
        image: your-docker-registry/auto-taint:latest
        imagePullPolicy: Always
        env:
        - name: PROMETHEUS_URL
          value: "http://prometheus.default.svc.cluster.local:9090"
        - name: CPU_THRESHOLD
          value: "80"
        - name: TAINT_KEY
          value: "node.kubernetes.io/pressure"
        - name: TAINT_VALUE
          value: "true"
        - name: TAINT_EFFECT
          value: "NoSchedule"
        - name: MONITOR_INTERVAL
          value: "60"

ServiceAccount 和 RBAC 权限配置示例：

apiVersion: v1
kind: ServiceAccount
metadata:
  name: auto-taint

---

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: auto-taint
rules:
- apiGroups: [""]
  resources: ["nodes"]
  verbs: ["get", "patch", "list", "watch"]

---

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: auto-taint
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: auto-taint
subjects:
- kind: ServiceAccount
  name: auto-taint
  namespace: default # 修改为你的 namespace

4. 验证结果

部署完成后，可以通过以下方式验证自动污点管理是否生效：

观察节点的 CPU 利用率，当 CPU 利用率超过阈值时，检查节点是否自动添加了污点。
尝试调度新的 Pod 到负载过高的节点上，观察 Pod 是否被成功调度。如果污点生效，Pod 将无法调度到该节点上。

5. 总结

本文介绍了一种基于 Prometheus 和 Kubernetes API 实现 Kubernetes 自动污点管理的方案。通过自动污点管理，我们可以根据节点的资源使用情况，动态地调整节点的污点，从而实现更精细化的调度策略，提高集群的资源利用率和稳定性。当然，这只是一种实现方式，你也可以根据实际需求，选择其他的监控系统和实现方式。例如，可以使用 Kubernetes Metrics Server 和 Horizontal Pod Autoscaler (HPA) 结合来实现更复杂的自动调度策略。

希望本文能够帮助你理解和实现 Kubernetes 的自动污点管理功能。

K8sCaptain Kubernetes 污点管理 Prometheus

基于 Pod 资源使用率的 Kubernetes 自动污点管理实践