玩转 Kubernetes：Pod 生命周期管理与探针实践，让你的应用稳如泰山

2025/6/7 04:25:36 213 0 0 0

Kubernetes Pod 生命周期：从摇篮到坟墓的全方位指南

大家好，我是爱钻研 K8s 的老码农。今天咱来聊聊 Kubernetes 里最核心的概念之一：Pod。别看它小小的，却是应用运行的基石。掌握 Pod 的生命周期管理，是保证应用稳定可靠的关键。这就像养孩子，得知道啥时候喂奶，啥时候换尿布，才能茁壮成长，不是吗？

Pod 的一生：创建、调度、运行、消亡

Pod 的生命周期可以简单概括为以下几个阶段：

创建 (Pending)：你提交了一个 Pod 的定义文件 (YAML)，Kubernetes 收到指令，开始创建 Pod。这时候 Pod 还处于“待定”状态，就像刚出生的婴儿，啥也不会，啥也不能干。
调度 (Pending -> Running)： Kubernetes 的调度器 (Scheduler) 负责将 Pod 分配到合适的节点 (Node) 上运行。这个过程要考虑很多因素，比如节点的资源是否足够，是否有满足 Pod 要求的标签 (Label) 等等。这就像给孩子找学校，得考虑学校的师资力量，离家远近等等。
运行 (Running)： Pod 成功调度到节点上，容器镜像被拉取下来，容器开始运行。这是 Pod 最重要的阶段，应用在容器里提供服务。就像孩子在学校里学习知识，增长技能。
终止 (Terminating)：当你删除 Pod，或者 Pod 所在的节点出现故障时，Pod 进入终止状态。Kubernetes 会尝试优雅地关闭 Pod 里的容器，给应用一些时间来清理资源，保存数据。这就像孩子毕业了，要离开学校，开始新的生活。
消亡 (Failed/Succeeded)： Pod 里的所有容器都停止运行后，Pod 就彻底消亡了。如果 Pod 里的容器是因为错误而停止的，Pod 的状态会变成 Failed；如果容器正常退出，Pod 的状态会变成 Succeeded。就像孩子长大成人，有了自己的事业和家庭。

探针：Pod 健康的守护神

光有生命周期还不够，我们还得时刻关注 Pod 的健康状态。如果 Pod 里的应用挂了，或者卡死了，Kubernetes 怎么知道呢？这时候就需要用到探针 (Probe) 了。

探针就像医生，定期给 Pod 做体检，检查它是否健康。Kubernetes 提供了三种探针：

Liveness Probe (存活探针)：检查 Pod 里的应用是否还在运行。如果 Liveness Probe 检查失败，Kubernetes 会重启 Pod。这就像医生发现病人得了重病，直接送进 ICU 抢救。
Readiness Probe (就绪探针)：检查 Pod 里的应用是否已经准备好对外提供服务。如果 Readiness Probe 检查失败，Kubernetes 会将 Pod 从 Service 的 endpoint 列表中移除，不再将流量导向该 Pod。这就像医生发现病人得了小病，建议在家休息，不要上班。
Startup Probe (启动探针)：检查 Pod 里的应用是否已经启动完成。这个探针主要用于那些启动时间比较长的应用。在 Startup Probe 成功之前，Liveness Probe 和 Readiness Probe 都会被禁用。这就像医生发现病人刚做完手术，需要一段时间恢复，暂时不能进行其他检查。

如何配置探针？

配置探针很简单，只需要在 Pod 的 YAML 文件里添加相应的配置即可。例如：

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
spec:
  containers:
  - name: my-container
    image: my-image
    ports:
    - containerPort: 8080
    livenessProbe:
      httpGet:
        path: /healthz
        port: 8080
      initialDelaySeconds: 3
      periodSeconds: 5
    readinessProbe:
      tcpSocket:
        port: 8080
      initialDelaySeconds: 5
      periodSeconds: 10
    startupProbe:
      httpGet:
        path: /startup
        port: 8080
      failureThreshold: 30
      periodSeconds: 10

上面的 YAML 文件定义了一个 Pod，包含一个容器。这个容器配置了三种探针：

Liveness Probe: 使用 HTTP GET 请求 /healthz 路径，检查应用是否存活。初始延迟 3 秒，每 5 秒检查一次。
Readiness Probe: 使用 TCP Socket 检查 8080 端口是否开放，判断应用是否就绪。初始延迟 5 秒，每 10 秒检查一次。
Startup Probe: 使用 HTTP GET 请求 /startup 路径，检查应用是否启动完成。如果连续 30 次检查失败，则认为启动失败。每 10 秒检查一次。

探针的检查方式

Kubernetes 提供了多种探针的检查方式：

HTTP GET Probe: 发送 HTTP GET 请求到指定的路径，如果返回的状态码在 200-399 之间，则认为检查成功。
TCP Socket Probe: 尝试建立 TCP 连接到指定的端口，如果连接成功，则认为检查成功。
Exec Probe: 在容器里执行指定的命令，如果命令的退出状态码为 0，则认为检查成功。

选择哪种检查方式取决于你的应用。一般来说，HTTP GET Probe 适用于 Web 应用，TCP Socket Probe 适用于检查端口是否开放，Exec Probe 适用于执行一些自定义的检查逻辑。

优雅终止：给 Pod 一个体面的告别

当你删除一个 Pod 时，Kubernetes 不会立即强制停止 Pod 里的容器，而是会先发送一个 SIGTERM 信号给容器里的应用，告诉应用即将被关闭。应用收到 SIGTERM 信号后，应该开始清理资源，保存数据，并停止接收新的请求。这个过程称为优雅终止 (Graceful Termination)。

Kubernetes 默认会等待 30 秒，如果应用在 30 秒内没有停止，Kubernetes 就会强制停止容器。你可以在 Pod 的 YAML 文件里通过 terminationGracePeriodSeconds 字段来配置优雅终止的超时时间。例如：

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
spec:
  containers:
  - name: my-container
    image: my-image
  terminationGracePeriodSeconds: 60

上面的 YAML 文件配置了优雅终止的超时时间为 60 秒。

如何处理 SIGTERM 信号？

你的应用需要能够正确处理 SIGTERM 信号。不同的编程语言处理 SIGTERM 信号的方式不同。例如，在 Node.js 里，你可以使用 process.on('SIGTERM', ...) 来注册 SIGTERM 信号的处理函数。在 Java 里，你可以使用 Runtime.getRuntime().addShutdownHook(...) 来注册关闭钩子。

为什么需要优雅终止？

优雅终止可以避免数据丢失和请求中断。例如，如果你的应用正在处理一个重要的事务，突然被强制停止，可能会导致数据损坏。如果你的应用正在处理用户的请求，突然被强制停止，用户可能会看到错误页面。

Pod 的状态：了解 Pod 的健康状况

你可以使用 kubectl describe pod <pod-name> 命令来查看 Pod 的详细信息，包括 Pod 的状态。Pod 的状态反映了 Pod 的健康状况。

Pod 的状态可以分为以下几种：

Pending: Pod 正在创建中。
Running: Pod 正在运行中。
Succeeded: Pod 里的所有容器都正常退出。
Failed: Pod 里的容器因为错误而停止运行。
Unknown: Pod 的状态无法确定。

除了 Pod 的状态，你还可以查看 Pod 里的容器的状态。容器的状态可以分为以下几种：

Waiting: 容器正在等待启动。
Running: 容器正在运行中。
Terminated: 容器已经停止运行。

通过查看 Pod 和容器的状态，你可以了解 Pod 的健康状况，并及时发现和解决问题。

最佳实践：让你的 Pod 更健壮

合理配置探针: 根据应用的特点，选择合适的探针类型和检查方式，并设置合理的初始延迟和检查周期。不要过度依赖探针，探针只是辅助手段，不能完全代替监控和日志。
优雅处理终止信号: 确保你的应用能够正确处理 SIGTERM 信号，并在优雅终止期间完成必要的清理工作。
设置资源限制: 为 Pod 设置合理的资源限制 (CPU 和内存)，避免 Pod 占用过多的资源，影响其他 Pod 的运行。
使用 PodDisruptionBudget: PodDisruptionBudget (PDB) 可以限制在进行维护操作时可以同时被删除的 Pod 的数量，从而保证应用的可用性。
定期检查 Pod 的状态: 使用监控工具定期检查 Pod 的状态，及时发现和解决问题。

总结

掌握 Kubernetes Pod 的生命周期管理，是保证应用稳定可靠的关键。通过合理配置探针，优雅处理终止信号，设置资源限制，以及使用 PodDisruptionBudget 等手段，可以使你的 Pod 更加健壮，从而保证应用的可用性和稳定性。

希望这篇文章对你有所帮助。如果你有任何问题，欢迎留言讨论。

K8s老码农 Kubernetes Pod Pod 生命周期 Kubernetes 探针