文章标签

原生架构

深度解析：Volcano 与 K8s 原生调度器在 AI 训练场景下的性能博弈

在云原生 AI 基础设施的构建中，Kubernetes（K8s）已成为事实上的标准。然而，随着 AI 训练任务（特别是大模型分布式训练）的规模不断扩大，原生 K8s 调度器（default-scheduler）在处理这类高并发、强依赖的任...

2026/4/12 0 138 0 0 0 Kubernetes Volcano AI 基础设施
深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

在分布式训练（如 AI 模型训练）和高性能计算（HPC）场景中，任务通常要求“要么全部运行，要么全不运行”。这种需求被称为 Gang Scheduling 。虽然 Kubernetes 原生调度器最初是为长连接微服务设计的，但通过 S...

2026/4/12 0 149 0 0 0 Kubernetes 调度插件云原生架构
Volcano Queue 混合云 GPU 调度实践：本地 IDC 与公有云资源的弹性配额联邦方案

架构背景与挑战在 AI 大模型训练与推理场景中，企业本地 IDC 的 GPU 资源往往面临潮汐式压力：日常开发测试资源闲置，而模型训练高峰期资源排队严重。单纯扩容本地 GPU 集群会导致 TCO（总拥有成本）激增，且硬件迭代周期...

2026/4/12 0 114 0 0 0 Volcano GPU 调度混合云架构
别再迷恋 reload 了：为什么容器化时代需要更硬核的平滑重启方案？

在传统的运维时代， nginx -s reload 或 systemctl reload gunicorn 是我们引以为傲的“神技”。它能在不中断现有连接的情况下加载新配置，优雅、快速且低感知。然而，随着技术栈全面转向 Doc...

2026/5/11 0 102 0 0 0 容器化 Kubernetes 运维最佳实践
别把 Job 当 Deployment 用：深入解析 Kubernetes 长时间任务的停机与重试策略

在 Kubernetes 的日常运维中，我们习惯了 Deployment 的“滚动更新”和“无损平滑切换”。然而，当你开始运行长达数小时甚至数天的计算任务、数据迁移或 AI 训练（即 Job 资源）时，你会发现一套完全不同的逻辑： Dep...

2026/5/11 0 60 0 0 0 Kubernetes 优雅停机分布式计算
彻底解决 Kubernetes Job 中 Sidecar 容器不退出的三大类方案

在 Kubernetes 运维实战中，我们经常会遇到一个尴尬的场景：一个 Job 的主任务容器（Main Container）已经运行结束并成功退出（Exit Code 0），但整个 Pod 却一直处于 Running 状态，迟迟无法...

2026/5/11 0 137 0 0 0 Kubernetes Sidecar 云原生架构
Istio 进阶：如何利用 WebAssembly 让 OPA 策略鉴权性能翻倍？

在微服务架构中， OPA (Open Policy Agent) 已成为云原生策略引擎的事实标准。然而，在 Istio 环境下，传统的 OPA 落地方式（如 Sidecar 注入或集中式鉴权服务）往往面临着难以逾越的性能鸿沟：网络延迟...

2026/5/12 0 94 0 0 0 Istio OPA
云原生安全下半场：eBPF 与 Wasm 鉴权方案的深度对比与场景选型

在零信任架构（Zero Trust Architecture）成为主流的今天，鉴权（Authentication & Authorization）的边界正在不断下沉。传统的应用层鉴权代码块因其高耦合、难维护的特性，正逐渐被非侵入式...

2026/5/12 0 114 0 0 0 eBPF 云原生安全
实战进阶：Istio Ingress Gateway 落地 RequestAuthentication 实现南北向 JWT 精细化控制

在云原生架构中，将身份认证（Authentication）下沉到基础设施层是实现零信任架构的关键一步。对于 Istio 而言，针对南北向（外部到集群内部）流量，在 Ingress Gateway 处统一校验 JWT（JSON Web To...

2026/5/13 0 116 0 0 0 Istio 网络安全
OPA 与 Envoy 配合时的延迟排查指南：当判定延迟超过 10ms 时，你应该检查哪些配置？

在云原生架构中，使用 OPA (Open Policy Agent) 作为 Envoy 的外部授权服务（ext_authz）是实现细粒度接入控制的标准做法。然而，由于每一次请求都需要经过外部授权判定，其延迟（Latency）直接影响系统的...

2026/5/16 0 59 0 0 0 OPA Envoy 性能优化
深度解析 Rego 引擎：为什么你的 OPA 策略在数据量大时会变慢？

在云原生架构中，Open Policy Agent (OPA) 已经成为了策略引擎的事实标准。无论是 Kubernetes 的准入控制（Admission Control），还是微服务架构中的细粒度鉴权（RBAC/ABAC），Rego 语...

2026/5/16 0 77 0 0 0 Rego性能优化云原生安全
K8s 进阶指南：BuildKit 深度优化——缓存加速与 Rootless 无根化安全实践

在云原生 CI/CD 体系中，镜像构建是耗时最长、安全风险最高的环节之一。传统的 Docker-in-Docker (DinD) 方案不仅需要高风险的 privileged: true 特权模式，还常常因为无法跨 Pod 共享缓存而导...

2026/5/18 0 272 0 0 0 Kubernetes BuildKit 容器安全
Rego 语言避坑指南：编写高性能 OPA 策略的 5 个核心优化点

在云原生架构中，Open Policy Agent (OPA) 已成为事实上的策略引擎标准。然而，随着策略规模的增长和数据量的增加，许多开发者发现原本“够用”的 Rego 策略开始出现明显的延迟，甚至成为微服务调用的瓶颈。 Rego ...

2026/5/15 0 93 0 0 0 Rego OPA 性能优化
实战 K8s 准入控制：编写 Validating Webhook 封杀非官方镜像源

在生产环境中，随意从公共镜像仓库（如 Docker Hub、未知的三方镜像源）拉取镜像，会带来巨大的安全风险和不确定性。为了规范镜像来源，我们通常要求所有 Pod 只能从公司内部的私有仓库（如 Harbor）拉取镜像。 Kuberne...

2026/5/15 0 75 0 0 0 Kubernetes 安全审计容器镜像
生产级 CI/CD 安全：深入探讨 Docker-in-Docker (DinD) 的隔离与加固方案

在现代 DevOps 流程中，使用容器化的 Self-hosted Runner（如 GitHub Actions Runner、GitLab Runner）已经成为标配。为了在流水线中执行 docker build 或运行容器化测试...

2026/5/17 0 195 0 0 0 Docker CICD安全容器技术
在Kubernetes中使用持久卷与存储类优化RabbitMQ磁盘I/O性能

在云原生环境中部署RabbitMQ时，磁盘I/O性能是影响消息队列吞吐量和延迟的关键因素。Kubernetes的持久卷（Persistent Volume）和存储类（Storage Class）机制，为我们提供了灵活且高效的存储资源配置方...

2026/1/21 0 214 0 0 0 RabbitMQ优化云原生消息队列
400G骨干网流量清洗利器基于XDP与eBPF的高性能架构设计与极限调优

在超大规模数据中心和骨干网边缘，面对 400G 带宽的线速（Line-rate）流量清洗挑战，传统的内核网络栈早已力不从心。在 64 字节小包的极端场景下，400G 链路每秒会产生高达 5.95 亿个数据包（595 Mpps）。这意味着每...

2026/5/26 0 145 0 0 0 eBPF XDP 高并发网络
基于 PPO 强化学习的 Kubernetes HPA 智能弹性伸缩落地实践

在云原生架构中，Kubernetes 原生的水平 Pod 自动扩缩容（HPA）是保障系统稳定性的基石。然而，原生 HPA 主要依赖于静态阈值（如 CPU/内存利用率达到 70%）进行反应式（Reactive）扩缩容。这种机制在面对突发流量...

2026/6/4 0 143 0 0 0 Kubernetes 强化学习 HPA
Kubernetes 混部实践：基于 CPU Manager 扩展的在离线容器高精度隔离方案

在企业级 Kubernetes 集群中，为了提升资源利用率，“在离线混部（Co-location）”已成为降低算力成本的标配手段。然而，简单的将延迟敏感型（Latency-Sensitive, 在线）与高吞吐非实时型（Best-Effor...

2026/6/7 0 95 0 0 0 Kubernetes 在离线混部
深入内核：如何利用 eBPF 诊断 Kubernetes 容器网络延迟与瓶颈

在云原生架构中，Kubernetes 容器网络的复杂性常常让排查工作变成一场噩梦。多层虚拟化网络设备（Bridge、Veth-pair、OVS）、复杂的网络策略（NetworkPolicy）、频繁的 IPVS/IPTables 规则刷新，...

2026/6/7 0 83 0 0 0 eBPF 容器网络 Kubernetes

文章标签

原生架构

深度解析：Volcano 与 K8s 原生调度器在 AI 训练场景下的性能博弈

深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

Volcano Queue 混合云 GPU 调度实践：本地 IDC 与公有云资源的弹性配额联邦方案

别再迷恋 reload 了：为什么容器化时代需要更硬核的平滑重启方案？

别把 Job 当 Deployment 用：深入解析 Kubernetes 长时间任务的停机与重试策略

彻底解决 Kubernetes Job 中 Sidecar 容器不退出的三大类方案

Istio 进阶：如何利用 WebAssembly 让 OPA 策略鉴权性能翻倍？

云原生安全下半场：eBPF 与 Wasm 鉴权方案的深度对比与场景选型

实战进阶：Istio Ingress Gateway 落地 RequestAuthentication 实现南北向 JWT 精细化控制

OPA 与 Envoy 配合时的延迟排查指南：当判定延迟超过 10ms 时，你应该检查哪些配置？

深度解析 Rego 引擎：为什么你的 OPA 策略在数据量大时会变慢？

K8s 进阶指南：BuildKit 深度优化——缓存加速与 Rootless 无根化安全实践

Rego 语言避坑指南：编写高性能 OPA 策略的 5 个核心优化点

实战 K8s 准入控制：编写 Validating Webhook 封杀非官方镜像源

生产级 CI/CD 安全：深入探讨 Docker-in-Docker (DinD) 的隔离与加固方案

在Kubernetes中使用持久卷与存储类优化RabbitMQ磁盘I/O性能

400G骨干网流量清洗利器 基于XDP与eBPF的高性能架构设计与极限调优

基于 PPO 强化学习的 Kubernetes HPA 智能弹性伸缩落地实践

Kubernetes 混部实践：基于 CPU Manager 扩展的在离线容器高精度隔离方案

深入内核：如何利用 eBPF 诊断 Kubernetes 容器网络延迟与瓶颈

400G骨干网流量清洗利器基于XDP与eBPF的高性能架构设计与极限调优