为啥你的 Pod 总是不听话？Kubernetes Pod 生命周期管理避坑指南

2025/5/25 20:13:27 395 0 0 0

Kubernetes Pod 生命周期，你真的懂了吗？

作为一名 Kubernetes 玩家，你是不是经常遇到这样的困惑？明明 YAML 文件写得漂漂亮亮，Pod 却总是莫名其妙地挂掉、重启，或者干脆就起不来？这很可能就是你对 Pod 的生命周期管理还不够了解！

Pod，作为 Kubernetes 中最小的部署单元，其生命周期管理至关重要。理解 Pod 的各个阶段、重启策略以及健康检查机制，是保证应用稳定运行的关键。本文将带你深入剖析 Pod 的生命周期，让你彻底掌握 Pod 的“生老病死”，从此告别“玄学”运维！

Pod 的一生：从创建到消亡

Pod 的生命周期可以大致分为以下几个阶段：

Pending（等待中）：这是 Pod 的第一个阶段。当你创建一个 Pod 时，它会先进入 Pending 状态。这意味着 Kubernetes 已经接受了你的请求，正在尝试调度 Pod 到一个合适的节点上运行。Pod 可能因为各种原因而停留在 Pending 状态，例如：
- 没有足够的资源（CPU、内存等）满足 Pod 的需求。
- 没有节点满足 Pod 的节点选择器（Node Selector）或亲和性（Affinity）要求。
- 镜像拉取失败。
Running（运行中）：当 Pod 成功调度到节点上，并且所有容器都启动成功后，Pod 就进入 Running 状态。这意味着 Pod 已经可以对外提供服务了。但需要注意的是，Running 状态并不代表 Pod 中的应用是健康的，还需要通过健康检查来判断。
Succeeded（成功）：这个状态只适用于那些执行完成后就会退出的 Pod，例如 Job。当 Job 成功完成任务后，Pod 就会进入 Succeeded 状态。
Failed（失败）：与 Succeeded 类似，这个状态也只适用于那些执行完成后就会退出的 Pod。当 Job 执行失败后，Pod 就会进入 Failed 状态。失败的原因可能有很多，例如：
- 容器中的应用发生崩溃。
- 容器返回非零的退出码。
- 资源限制被超出。
Unknown（未知）：当 Kubernetes 无法确定 Pod 的状态时，Pod 就会进入 Unknown 状态。这通常是由于 Kubernetes 集群内部出现问题，例如节点失联等。

重启策略（RestartPolicy）：Pod “起死回生”的秘诀

Pod 的重启策略（RestartPolicy）决定了 Pod 中的容器在发生故障时是否应该被重启。Kubernetes 提供了三种重启策略：

Always：这是最常用的重启策略。无论容器是因为什么原因退出，Kubernetes 都会自动重启容器。这种策略适用于那些需要持续运行的服务。
OnFailure：只有当容器返回非零的退出码时，Kubernetes 才会重启容器。这种策略适用于那些执行一定任务后就会退出的应用，例如 Job。如果 Job 正常完成任务并退出，Kubernetes 就不会重启容器。
Never：无论容器是因为什么原因退出，Kubernetes 都不会重启容器。这种策略适用于那些只需要运行一次的应用，例如初始化任务。

需要注意的是，RestartPolicy 只能保证 Pod 中的容器被重启，而不能保证 Pod 本身被重新创建。如果 Pod 所在的节点发生故障，Pod 仍然会丢失。 为了保证 Pod 的高可用性，你需要使用 Deployment、StatefulSet 等控制器来管理 Pod。

健康检查（Probe）：Pod 的“体检报告”

仅仅知道 Pod 处于 Running 状态是不够的，你还需要知道 Pod 中的应用是否健康。Kubernetes 提供了两种健康检查机制：

Liveness Probe（存活探针）：用于检测 Pod 中的应用是否仍然在运行。如果 Liveness Probe 检测失败，Kubernetes 会重启容器。这可以帮助你自动恢复那些因为死锁、内存泄漏等原因而无法正常工作的应用。
Readiness Probe（就绪探针）：用于检测 Pod 中的应用是否已经准备好接收请求。如果 Readiness Probe 检测失败，Kubernetes 会将 Pod 从 Service 的 endpoint 列表中移除，从而避免将请求转发到不健康的 Pod 上。这可以帮助你实现灰度发布、滚动更新等高级功能。

Kubernetes 提供了三种类型的 Probe：

HTTP Probe：通过发送 HTTP 请求来检测应用的健康状态。你可以指定请求的路径、端口、Header 等参数。如果 HTTP 请求返回 200-399 之间的状态码，就认为应用是健康的。
TCP Probe：通过尝试建立 TCP 连接来检测应用的健康状态。如果 TCP 连接建立成功，就认为应用是健康的。
Exec Probe：通过在容器中执行命令来检测应用的健康状态。如果命令返回 0，就认为应用是健康的。

如何选择合适的 Probe？

如果你的应用提供了 HTTP 接口，那么 HTTP Probe 是一个不错的选择。
如果你的应用没有提供 HTTP 接口，但是监听了 TCP 端口，那么 TCP Probe 是一个不错的选择。
如果你的应用需要执行一些复杂的逻辑来判断健康状态，那么 Exec Probe 是一个不错的选择。

实战演练：手把手配置 Pod 的生命周期管理

接下来，我们通过一个简单的例子来演示如何配置 Pod 的生命周期管理。

假设我们有一个简单的 Web 应用，它监听 8080 端口，并提供一个 /healthz 接口用于健康检查。

首先，我们创建一个 YAML 文件 pod.yaml，内容如下：

apiVersion: v1
kind: Pod
metadata:
  name: my-web-app
spec:
  containers:
  - name: my-web-app
    image: nginx:latest
    ports:
    - containerPort: 8080
    livenessProbe:
      httpGet:
        path: /healthz
        port: 8080
      initialDelaySeconds: 5
      periodSeconds: 10
    readinessProbe:
      httpGet:
        path: /healthz
        port: 8080
      initialDelaySeconds: 5
      periodSeconds: 10
    restartPolicy: Always

在这个 YAML 文件中，我们定义了一个名为 my-web-app 的 Pod，它包含一个名为 my-web-app 的容器，使用了 nginx:latest 镜像。我们还配置了 Liveness Probe 和 Readiness Probe，它们都通过 HTTP GET 请求 /healthz 接口来检测应用的健康状态。initialDelaySeconds 参数指定了 Pod 启动后多久开始进行健康检查，periodSeconds 参数指定了健康检查的频率。restartPolicy 参数设置为 Always，表示无论容器是因为什么原因退出，Kubernetes 都会自动重启容器。

然后，我们使用 kubectl apply -f pod.yaml 命令来创建 Pod。

kubectl apply -f pod.yaml

创建完成后，我们可以使用 kubectl get pod my-web-app 命令来查看 Pod 的状态。

kubectl get pod my-web-app

如果一切正常，你应该看到 Pod 的状态为 Running，并且 READY 列显示 2/2，表示 Liveness Probe 和 Readiness Probe 都通过了。

现在，你可以尝试停止 Web 应用，例如执行 kill 1 命令。你会发现 Kubernetes 会自动重启容器，并将 Pod 恢复到 Running 状态。

避坑指南：常见问题及解决方案

Liveness Probe 和 Readiness Probe 配置不合理：
- 问题：Liveness Probe 和 Readiness Probe 配置过于敏感，导致 Pod 频繁重启或被从 Service 中移除。
- 解决方案：调整 Liveness Probe 和 Readiness Probe 的参数，例如增加 initialDelaySeconds、periodSeconds、failureThreshold 等，使其更加稳定。
Liveness Probe 和 Readiness Probe 使用了相同的接口：
- 问题：Liveness Probe 和 Readiness Probe 使用了相同的接口，导致 Readiness Probe 无法区分应用是否真的已经准备好接收请求。
- 解决方案：为 Liveness Probe 和 Readiness Probe 使用不同的接口。例如，Liveness Probe 可以检测应用的进程是否还在运行，而 Readiness Probe 可以检测应用是否已经完成了初始化，并可以处理请求。
RestartPolicy 设置不正确：
- 问题：RestartPolicy 设置为 Never，导致 Pod 发生故障后无法自动恢复。
- 解决方案：根据应用的需求选择合适的 RestartPolicy。对于需要持续运行的服务，建议使用 Always。
Pod 所在的节点发生故障：
- 问题：Pod 所在的节点发生故障，导致 Pod 丢失。
- 解决方案：使用 Deployment、StatefulSet 等控制器来管理 Pod，并配置足够多的副本，以保证 Pod 的高可用性。

总结

Pod 的生命周期管理是 Kubernetes 中非常重要的一个概念。理解 Pod 的各个阶段、重启策略以及健康检查机制，是保证应用稳定运行的关键。希望本文能够帮助你彻底掌握 Pod 的“生老病死”，从此告别“玄学”运维！

掌握了 Pod 生命周期管理的知识，你就可以更好地理解 Kubernetes 的工作原理，并能够更加自信地使用 Kubernetes 来部署和管理你的应用。

下次再遇到 Pod 相关的“疑难杂症”，不妨回顾一下本文的内容，相信你一定能够找到解决方案！

K8s布道师 Kubernetes Pod 生命周期管理