告别资源浪费？Kubernetes Pod CPU 监控与自动资源调整实战！

2025/6/8 17:09:58 40 0 0 0

Kubernetes Pod CPU 监控与自动资源调整：运维工程师的效率利器

1. 需求分析：监控、调整、稳定

2. 技术选型：Kubernetes API + Metrics Server + Custom Controller

3. 方案设计：监控、决策、执行

3.1 监控模块：Metrics Server 的实时数据

3.2 决策模块：Custom Controller 的智能策略

3.3 执行模块：Kubernetes API 的资源调整

4. 异常处理：容错、告警、回滚

5. 安全考虑：权限控制、安全审计

6. 总结：自动化运维的基石

Kubernetes Pod CPU 监控与自动资源调整：运维工程师的效率利器

作为一名 Kubernetes 运维工程师，你是否经常面临这样的挑战：集群资源利用率不高，Pod 资源分配不合理，导致资源浪费？手动调整资源配额，效率低下，容易出错？

今天，我将分享一套基于 Kubernetes API 的 Pod CPU 监控与自动资源调整方案，帮助你实现集群资源优化，提升运维效率。

1. 需求分析：监控、调整、稳定

在深入方案设计之前，让我们再次明确目标：

实时监控： 准确获取集群中所有 Pod 的 CPU 使用率。
自动调整： 根据 CPU 使用率，自动调整 Pod 的资源配额（requests 和 limits）。
异常处理： 能够处理各种异常情况，保证系统的稳定性。
高效可靠： 方案必须高效，可靠，对现有集群影响最小。

2. 技术选型：Kubernetes API + Metrics Server + Custom Controller

为了实现上述目标，我们需要选择合适的工具和技术：

Kubernetes API： Kubernetes 的核心，提供集群状态查询和资源操作接口。我们将使用它来获取 Pod 信息和更新资源配额。
Metrics Server： Kubernetes 官方的资源监控组件，提供集群中 Pod 和 Node 的 CPU、内存等指标数据。它是我们获取 CPU 使用率的关键数据源。
Custom Controller： 自定义控制器，用于实现自动资源调整的逻辑。通过监听 Kubernetes API，获取 Pod CPU 使用率数据，并根据预设策略调整资源配额。

当然，还有其他一些可选方案，例如使用 Prometheus + Grafana 进行监控，然后通过自定义脚本或工具进行资源调整。但综合考虑易用性、可维护性和与 Kubernetes 的集成度，Metrics Server + Custom Controller 方案更具优势。

3. 方案设计：监控、决策、执行

我们的方案主要分为三个模块：监控模块、决策模块和执行模块。

3.1 监控模块：Metrics Server 的实时数据

Metrics Server 通过 Kubernetes API 聚合了 kubelet 暴露的 metrics 数据，并以 Resource Metrics API 的形式对外提供。我们可以通过 Kubernetes API 访问这些数据，获取 Pod 的 CPU 使用率。

实现步骤：

部署 Metrics Server： 可以通过 kubectl apply -f https://github.com/kubernetes-sigs/metrics-server/releases/latest/download/components.yaml 命令快速部署 Metrics Server。请根据你的 Kubernetes 版本选择合适的 Metrics Server 版本。
验证 Metrics Server： 部署完成后，可以使用 kubectl top pod 命令查看 Pod 的 CPU 和内存使用情况，确认 Metrics Server 正常工作。
API Server 访问 Metrics Server： 确保 API Server 能够访问 Metrics Server 的 API。这通常需要在 Kubernetes 集群的 DNS 中配置 Metrics Server 的域名解析。

3.2 决策模块：Custom Controller 的智能策略

Custom Controller 是我们方案的核心，它负责监听 Kubernetes API，获取 Pod CPU 使用率数据，并根据预设策略调整资源配额。

实现步骤：

定义 CRD（Custom Resource Definition）： 我们可以定义一个 CRD 来描述自动资源调整的策略，例如：

 apiVersion: apiextensions.k8s.io/v1
kind: CustomResourceDefinition
metadata:
  name: podautoscalers.example.com
spec:
  group: example.com
  versions:
    - name: v1
      served: true
      storage: true
      schema:
        openAPIV3Schema:
          type: object
          properties:
            spec:
              type: object
              properties:
                targetCPUUtilizationPercentage:
                  type: integer
                  description: The target CPU utilization percentage.
                minReplicas:
                  type: integer
                  description: The minimum number of replicas.
                maxReplicas:
                  type: integer
                  description: The maximum number of replicas.
  scope: Namespaced
  names:
    plural: podautoscalers
    singular: podautoscaler
    kind: PodAutoscaler
    shortNames:          
      - pa

这个 CRD 定义了一个 PodAutoscaler 资源，可以指定目标 CPU 使用率、最小副本数和最大副本数。

开发 Controller： 使用 Golang 或其他编程语言开发 Controller，监听 PodAutoscaler 资源的变化，并根据配置的策略调整 Pod 的资源配额。Controller 的核心逻辑如下：

获取 Pod CPU 使用率： 通过 Kubernetes API 访问 Metrics Server，获取 Pod 的 CPU 使用率。
计算资源调整值： 根据目标 CPU 使用率和当前 CPU 使用率，计算需要调整的 CPU requests 和 limits。
更新 Pod 资源配额： 通过 Kubernetes API 更新 Pod 的资源配额。

 package main
 
import (
    "context"
    "fmt"
    "time"
 
    apicorev1 "k8s.io/api/core/v1"
    "k8s.io/apimachinery/pkg/api/errors"
    metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
    "k8s.io/apimachinery/pkg/runtime"
    "k8s.io/apimachinery/pkg/watch"
    "k8s.io/client-go/kubernetes"
    "k8s.io/client-go/rest"
    "k8s.io/client-go/tools/cache"
    "k8s.io/client-go/tools/clientcmd"
    "k8s.io/metrics/pkg/client/clientset/versioned"
)
 
// PodAutoscaler represents the desired state of PodAutoscaler
type PodAutoscaler struct {
    metav1.TypeMeta   `json:",inline"`
    metav1.ObjectMeta `json:"metadata,omitempty"`
 
    Spec PodAutoscalerSpec `json:"spec"`
}
 
// PodAutoscalerSpec defines the desired state of PodAutoscaler
type PodAutoscalerSpec struct {
    TargetCPUUtilizationPercentage int32 `json:"targetCPUUtilizationPercentage"`
    MinReplicas                    int32 `json:"minReplicas"`
    MaxReplicas                    int32 `json:"maxReplicas"`
}
 
// PodAutoscalerList contains a list of PodAutoscaler
type PodAutoscalerList struct {
    metav1.TypeMeta `json:",inline"`
    metav1.ListMeta `json:"metadata,omitempty"`
    Items           []PodAutoscaler `json:"items"`
}
 
func main() {
    // 1. Load Kubernetes configuration
    config, err := clientcmd.BuildConfigFromFlags("", "/Users/jiangtao/Documents/kubeconfig")
    if err != nil {
        panic(err.Error())
    }
 
    // 2. Create Kubernetes client
    clientset, err := kubernetes.NewForConfig(config)
    if err != nil {
        panic(err.Error())
    }
 
    // 3. Create Metrics client
    metricsClient, err := versioned.NewForConfig(config)
    if err != nil {
        panic(err.Error())
    }
 
    // 4. Define namespace and pod name
    namespace := "default"
    podName := "nginx-deployment-66b6c48dd5-m8mdq"
 
    // 5. Main loop
    ticker := time.NewTicker(5 * time.Second)
    defer ticker.Stop()
 
    for range ticker.C {
        // Get pod metrics
        podMetrics, err := metricsClient.MetricsV1beta1().PodMetricses(namespace).Get(context.TODO(), podName, metav1.GetOptions{})
        if err != nil {
            fmt.Printf("Failed to get pod metrics: %v\n", err)
            continue
        }
 
        // Calculate CPU usage
        var cpuUsage int64
        for _, container := range podMetrics.Containers {
            cpuUsage += container.Usage.Cpu().MilliValue()
        }
 
        // Print CPU usage
        fmt.Printf("Pod %s CPU usage: %d millicores\n", podName, cpuUsage)
 
        // Get pod
        pod, err := clientset.CoreV1().Pods(namespace).Get(context.TODO(), podName, metav1.GetOptions{})
        if err != nil {
            fmt.Printf("Failed to get pod: %v\n", err)
            continue
        }
 
        // Example: Update pod's resource requests and limits (simplified)
        for i := range pod.Spec.Containers {
            // Increase CPU request by 10% (example)
            currentCPURequest := pod.Spec.Containers[i].Resources.Requests.Cpu().MilliValue()
            newCPURequest := int64(float64(currentCPURequest) * 1.1)
 
            // Update the resource request
            pod.Spec.Containers[i].Resources.Requests["cpu"] = *resource.NewMilliQuantity(newCPURequest)
            fmt.Printf("Updated CPU request to: %d millicores\n", newCPURequest)
        }
 
        // Update the pod
        _, err = clientset.CoreV1().Pods(namespace).Update(context.TODO(), pod, metav1.UpdateOptions{})
        if err != nil {
            fmt.Printf("Failed to update pod: %v\n", err)
            continue
        }
 
        fmt.Println("Pod updated successfully")
    }
}

注意： 这只是一个简单的示例，实际的 Controller 需要处理更多的细节，例如：

防止频繁调整： 设置一个冷却时间，避免频繁调整资源配额。
资源限制： 确保调整后的资源配额在合理的范围内，避免过度分配资源。
监控调整效果： 监控资源调整后的 CPU 使用率，确保调整达到预期效果。

部署 Controller： 将 Controller 打包成 Docker 镜像，并部署到 Kubernetes 集群中。

3.3 执行模块：Kubernetes API 的资源调整

执行模块负责根据决策模块的指令，通过 Kubernetes API 更新 Pod 的资源配额。

实现步骤：

获取 Pod 对象： 通过 Kubernetes API 获取需要调整的 Pod 对象。
更新资源配额： 修改 Pod 对象的 spec.containers[].resources.requests 和 spec.containers[].resources.limits 字段，设置新的 CPU 和内存配额。
更新 Pod 对象： 通过 Kubernetes API 更新 Pod 对象。

注意： 更新 Pod 对象可能会导致 Pod 重启。为了避免服务中断，可以采用滚动更新的方式，逐步更新 Pod 的资源配额。

4. 异常处理：容错、告警、回滚

在实际生产环境中，可能会遇到各种异常情况，例如：

Metrics Server 故障： 无法获取 Pod CPU 使用率数据。
Kubernetes API 故障： 无法更新 Pod 资源配额。
资源调整失败： 调整后的资源配额不合理，导致 Pod 无法正常运行。

为了保证系统的稳定性，我们需要考虑以下异常处理策略：

容错处理： 在代码中添加异常处理逻辑，例如使用 try-catch 语句捕获异常，并进行重试或降级处理。
告警机制： 当出现异常情况时，发送告警通知，例如通过 Email、Slack 或其他 IM 工具通知运维人员。
回滚机制： 当资源调整失败时，能够回滚到之前的资源配额，避免服务中断。

5. 安全考虑：权限控制、安全审计

在 Kubernetes 集群中，安全性至关重要。我们需要考虑以下安全问题：

权限控制： 确保 Custom Controller 只有必要的权限，例如只能获取 Pod CPU 使用率数据和更新 Pod 资源配额。
安全审计： 记录 Custom Controller 的所有操作，例如资源调整记录，以便进行安全审计。

6. 总结：自动化运维的基石

通过以上方案，我们可以实现 Kubernetes Pod CPU 监控与自动资源调整，从而优化集群资源利用率，提升运维效率。

当然，这只是一个基础方案。在实际应用中，你可能需要根据你的业务需求进行定制，例如：

更复杂的资源调整策略： 例如根据 Pod 的类型、优先级等因素，采用不同的资源调整策略。
更精细的监控指标： 例如监控 Pod 的内存使用率、磁盘 IO 等指标。
与 CI/CD 系统集成： 例如在 CI/CD 流程中自动调整 Pod 的资源配额。

希望这个方案能帮助你构建更智能、更高效的 Kubernetes 集群！

K8s Captain Kubernetes Metrics Server Custom Controller

	apiVersion: apiextensions.k8s.io/v1
	kind: CustomResourceDefinition
	metadata:
	name: podautoscalers.example.com
	spec:
	group: example.com
	versions:
	- name: v1
	served: true
	storage: true
	schema:
	openAPIV3Schema:
	type: object
	properties:
	spec:
	type: object
	properties:
	targetCPUUtilizationPercentage:
	type: integer
	description: The target CPU utilization percentage.
	minReplicas:
	type: integer
	description: The minimum number of replicas.
	maxReplicas:
	type: integer
	description: The maximum number of replicas.
	scope: Namespaced
	names:
	plural: podautoscalers
	singular: podautoscaler
	kind: PodAutoscaler
	shortNames:
	- pa

	package main

	import (
	"context"
	"fmt"
	"time"

	apicorev1 "k8s.io/api/core/v1"
	"k8s.io/apimachinery/pkg/api/errors"
	metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
	"k8s.io/apimachinery/pkg/runtime"
	"k8s.io/apimachinery/pkg/watch"
	"k8s.io/client-go/kubernetes"
	"k8s.io/client-go/rest"
	"k8s.io/client-go/tools/cache"
	"k8s.io/client-go/tools/clientcmd"
	"k8s.io/metrics/pkg/client/clientset/versioned"
	)

	// PodAutoscaler represents the desired state of PodAutoscaler
	type PodAutoscaler struct {
	metav1.TypeMeta `json:",inline"`
	metav1.ObjectMeta `json:"metadata,omitempty"`

	Spec PodAutoscalerSpec `json:"spec"`
	}

	// PodAutoscalerSpec defines the desired state of PodAutoscaler
	type PodAutoscalerSpec struct {
	TargetCPUUtilizationPercentage int32 `json:"targetCPUUtilizationPercentage"`
	MinReplicas int32 `json:"minReplicas"`
	MaxReplicas int32 `json:"maxReplicas"`
	}

	// PodAutoscalerList contains a list of PodAutoscaler
	type PodAutoscalerList struct {
	metav1.TypeMeta `json:",inline"`
	metav1.ListMeta `json:"metadata,omitempty"`
	Items []PodAutoscaler `json:"items"`
	}

	func main() {
	// 1. Load Kubernetes configuration
	config, err := clientcmd.BuildConfigFromFlags("", "/Users/jiangtao/Documents/kubeconfig")
	if err != nil {
	panic(err.Error())
	}

	// 2. Create Kubernetes client
	clientset, err := kubernetes.NewForConfig(config)
	if err != nil {
	panic(err.Error())
	}

	// 3. Create Metrics client
	metricsClient, err := versioned.NewForConfig(config)
	if err != nil {
	panic(err.Error())
	}

	// 4. Define namespace and pod name
	namespace := "default"
	podName := "nginx-deployment-66b6c48dd5-m8mdq"

	// 5. Main loop
	ticker := time.NewTicker(5 * time.Second)
	defer ticker.Stop()

	for range ticker.C {
	// Get pod metrics
	podMetrics, err := metricsClient.MetricsV1beta1().PodMetricses(namespace).Get(context.TODO(), podName, metav1.GetOptions{})
	if err != nil {
	fmt.Printf("Failed to get pod metrics: %v\n", err)
	continue
	}

	// Calculate CPU usage
	var cpuUsage int64
	for _, container := range podMetrics.Containers {
	cpuUsage += container.Usage.Cpu().MilliValue()
	}

	// Print CPU usage
	fmt.Printf("Pod %s CPU usage: %d millicores\n", podName, cpuUsage)

	// Get pod
	pod, err := clientset.CoreV1().Pods(namespace).Get(context.TODO(), podName, metav1.GetOptions{})
	if err != nil {
	fmt.Printf("Failed to get pod: %v\n", err)
	continue
	}

	// Example: Update pod's resource requests and limits (simplified)
	for i := range pod.Spec.Containers {
	// Increase CPU request by 10% (example)
	currentCPURequest := pod.Spec.Containers[i].Resources.Requests.Cpu().MilliValue()
	newCPURequest := int64(float64(currentCPURequest) * 1.1)

	// Update the resource request
	pod.Spec.Containers[i].Resources.Requests["cpu"] = *resource.NewMilliQuantity(newCPURequest)
	fmt.Printf("Updated CPU request to: %d millicores\n", newCPURequest)
	}

	// Update the pod
	_, err = clientset.CoreV1().Pods(namespace).Update(context.TODO(), pod, metav1.UpdateOptions{})
	if err != nil {
	fmt.Printf("Failed to update pod: %v\n", err)
	continue
	}

	fmt.Println("Pod updated successfully")
	}
	}

告别资源浪费？Kubernetes Pod CPU 监控与自动资源调整实战！

Kubernetes Pod CPU 监控与自动资源调整：运维工程师的效率利器

1. 需求分析：监控、调整、稳定

2. 技术选型：Kubernetes API + Metrics Server + Custom Controller

3. 方案设计：监控、决策、执行

3.1 监控模块：Metrics Server 的实时数据

3.2 决策模块：Custom Controller 的智能策略

3.3 执行模块：Kubernetes API 的资源调整

4. 异常处理：容错、告警、回滚

5. 安全考虑：权限控制、安全审计

6. 总结：自动化运维的基石

Kubernetes Pod CPU 监控与自动资源调整：运维工程师的效率利器

1. 需求分析：监控、调整、稳定

2. 技术选型：Kubernetes API + Metrics Server + Custom Controller

3. 方案设计：监控、决策、执行

3.1 监控模块：Metrics Server 的实时数据

3.2 决策模块：Custom Controller 的智能策略

3.3 执行模块：Kubernetes API 的资源调整

4. 异常处理：容错、告警、回滚

5. 安全考虑：权限控制、安全审计

6. 总结：自动化运维的基石

评论点评