文章标签

CRD

深度解析 K8s 调度器扩展框架：编写自定义插件支持复杂 AI 任务

在云原生时代，Kubernetes (K8s) 已成为管理容器化应用的事实标准。然而，随着 AI/ML 任务的爆发式增长，默认调度器的“逐个 Pod 调度”逻辑逐渐显露疲态。AI 训练通常涉及分布式计算（如 PyTorch DDP、Ten...

2026/4/12 0 80 0 0 0 Kubernetes AI基础设施调度算法
Kubernetes如何智能管理微服务：自动化服务发现与监控配置

在云原生时代，微服务的生命周期短、数量变化快是常态。传统的手动配置和维护方式，在面对这种动态环境时显得力不从心，不仅效率低下，还极易引入人为错误。Kubernetes作为容器编排的事实标准，其设计哲学天然支持这种高度动态的服务管理。本文将...

2026/4/2 0 100 0 0 0 Kubernetes 服务发现 Prometheus
eBPF 实战：利用 Tetragon 实时监控并阻断 K8s 集群异常网络外联

在 Kubernetes 集群的安全治理中，网络层面的防御通常依赖于 Network Policy。然而，传统的 Network Policy 只能在 L3/L4 层进行粗粒度的访问控制，且往往难以应对“已感染容器试图通过非常规手段外联”...

2026/4/15 0 259 0 0 0 Kubernetes eBPF 网络安全
Volcano 与原生 K8s 调度器在分布式深度学习中的实战对比

在构建企业级 AI 训练平台时，调度器往往是决定 GPU 集群利用率与任务交付效率的核心瓶颈。原生 K8s 调度器（kube-scheduler）为通用微服务设计，而 Volcano 是 CNCF 沙箱项目中专为 HPC 与 AI 负载打...

2026/4/12 0 101 0 0 0 分布式深度学习 Volcano
深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

在分布式训练（如 AI 模型训练）和高性能计算（HPC）场景中，任务通常要求“要么全部运行，要么全不运行”。这种需求被称为 Gang Scheduling 。虽然 Kubernetes 原生调度器最初是为长连接微服务设计的，但通过 S...

2026/4/12 0 92 0 0 0 Kubernetes 调度插件云原生架构
Kubernetes DRA：打破 AI 推理算力调度的“静态”瓶颈

在当前的 AI 大模型时代，异构算力（如 GPU、NPU、FPGA）的调度效率直接决定了推理服务的成本与响应速度。长期以来，Kubernetes 社区主要依赖 Device Plugin 机制来管理这些硬件资源。然而，随着 AI 推理...

2026/4/12 0 84 0 0 0 Kubernetes AI推理资源调度
Alertmanager 配置热重载深度解析：零停机更新路由的工程实践

在生产环境中，Alertmanager 作为告警路由的核心枢纽，任何配置变更都需保证零停机时间与配置原子性。直接重启实例会导致告警静默窗口，而配置错误可能引发路由黑洞。本文从信号机制到底层实现，拆解如何构建安全的热重载流水线。 ...

2026/4/11 0 103 0 0 0 配置热重载 SRE实践
云原生安全实战：利用 Tetragon + LSM BPF 实现容器文件系统细粒度审计

在云原生环境下，容器的运行时安全防护（Runtime Security）一直是技术难点。传统的审计工具（如审计日志或基于 kprobes 的方案）往往存在被绕过的风险，或在防御时存在“检测到即已发生”的滞后性。 Cilium 社区推出...

2026/4/15 0 115 0 0 0 eBPF Tetragon 容器安全
徒手打造 eBPF 执行追踪器：为何及如何超越 Tetragon 的预设边界

当你已经用上了 Tetragon 或 Falco 这类成熟的运行时安全工具，却仍感觉“隔靴搔痒”——策略引擎不够灵活、事件粒度太粗、或是那额外的抽象层带来了不可忽视的性能开销——那么是时候直接与内核对话了。本文将带你从零编写一个自定义的 ...

2026/4/16 0 100 0 0 0 eBPF Linux内核系统调用跟踪
手把手教你编写 EnvoyFilter：如何实现自定义的七层协议解析

在 Istio 的世界里，默认的 HTTP、gRPC、Redis 等协议支持已经涵盖了 90% 的场景。然而，当你面对企业内部深水区的私有 RPC 协议、旧版 SOA 架构或是特殊的安全校验逻辑时，Istio 的标准 API（...

2026/5/12 0 39 0 0 0 Istio 服务网格
Istio 进阶：如何将 JWT 校验失败的“纯文本”响应优雅地改为 JSON 格式？

在微服务架构中，使用 Istio 的 RequestAuthentication 进行 JWT 校验是常规操作。然而，很多开发者在实战中都会遇到一个头疼的问题：当 JWT 过期、缺失或非法时，Istio（底层的 Envoy）默认会返回...

2026/5/13 0 35 0 0 0 Istio JWT
万级 Pod 挑战：放弃 iptables，用 Cilium eBPF 实现超大规模 K8s 网络微隔离落地实践

在大规模 Kubernetes 集群中（例如 10,000+ Pod 规模），传统的网络微隔离方案往往会遇到难以逾越的性能瓶颈。如果你仍在使用基于组件如 kube-proxy 默认的 iptables，或者试图通过原生的 Kubernet...

2026/5/24 0 46 0 0 0 Cilium Kubernetes 网络微隔离
裸金属 K8s 环境下 FRR 与 Cilium BGP Control Plane 对接实战

前言在裸金属数据中心部署 Kubernetes 集群时，Pod 网络的外部可达性一直是个经典难题。云厂商提供的 VPC CNI 或负载均衡器方案在物理机房并不适用，而 Cilium 的 BGP Control Plane 为我们提供...

2026/6/2 0 34 0 0 0 Cilium BGP Kubernetes
Istio Ambient Mode 与外部 LB 的碰撞：入站流量可观测性与零信任安全的破局之道

前言：从 Sidecar 到 Sidecarless 的范式转移 2022年，Istio 社区正式推出了 Ambient Mode ，一种无需在每个 Pod 中注入 sidecar proxy 的服务网格数据面方案。这被很多人视为&...

2026/6/1 0 36 0 0 0 Istio kubernetes
大规模 K8s 集群中 RunPodSandbox 频繁超时的深层诱因与落地调优指南

在 Kubernetes 集群规模迈向数百甚至数千个节点时，平台工程师或 SRE 经常会遭遇一个经典而顽固的“幽灵故障”：新调度的 Pod 长期卡在 ContainerCreating 状态，查看 Kubelet 日志或 K8s Ev...

2026/6/6 0 32 0 0 0 Kubernetes CNI
深入剖析：如何巧用Linkerd流量转移，实现Kubernetes下的蓝绿部署与金丝雀发布

在微服务架构日益普及的今天，如何安全、高效地更新线上服务，成了每位SRE和DevOps工程师的“心头大事”。传统的停机维护或粗暴替换早已不合时宜，取而代之的是更加精细化的灰度发布策略。而Linkerd，作为一款轻量级、高性能的服务网格，其...

2025/8/21 0 197 0 0 0 Linkerd 蓝绿部署金丝雀发布
Istio外部授权服务高可用部署与OIDC集成最佳实践

在微服务架构中，授权是至关重要的安全环节。Istio作为流行的服务网格，提供了强大的流量管理和安全策略能力。本文将深入探讨如何在Istio中部署和管理一个高可用、低延迟的外部授权服务（External Authorization Serv...

2025/8/27 0 281 0 0 0 Istio OIDC 外部授权
大型多团队微服务：如何用 Istio 授权策略实现精细权限控制？

在大型多团队微服务项目中，服务间的权限控制是一个至关重要的环节。如果缺乏有效的权限管理，很容易出现微服务越权访问，导致数据泄露或服务不稳定。Istio 的授权策略（Authorization Policy）提供了一种强大的机制，可以对微服...

2025/8/26 0 140 0 0 0 Istio 授权策略微服务安全
揭秘Istio流量迁移的魔法：VirtualService、DestinationRule与Envoy的协同作战

在微服务架构的汪洋大海中，服务的平滑升级、新功能的迭代测试，甚至是大促期间的流量洪峰管理，都离不开一套灵活、强大的流量管理机制。Istio作为服务网格领域的明星，其流量迁移能力无疑是其最引人注目的特性之一。你可能好奇，Istio究竟是如何...

2025/8/23 0 2251 0 0 0 Istio 流量迁移微服务
使用 Prometheus Operator 实现 Kubernetes 跨命名空间监控：ServiceMonitor 配置指南

在 Kubernetes 集群中，Prometheus Operator 提供了一种声明式的方式来管理 Prometheus 实例及其监控目标。当你的应用分散在多个命名空间中时，集中监控这些应用变得尤为重要。本文将深入探讨如何使用 Pro...

2025/8/24 0 560 0 0 0 Prometheus Operator Kubernetes 监控跨命名空间监控

文章标签

CRD

深度解析 K8s 调度器扩展框架：编写自定义插件支持复杂 AI 任务

Kubernetes如何智能管理微服务：自动化服务发现与监控配置

eBPF 实战：利用 Tetragon 实时监控并阻断 K8s 集群异常网络外联

Volcano 与原生 K8s 调度器在分布式深度学习中的实战对比

深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

Kubernetes DRA：打破 AI 推理算力调度的“静态”瓶颈

Alertmanager 配置热重载深度解析：零停机更新路由的工程实践

云原生安全实战：利用 Tetragon + LSM BPF 实现容器文件系统细粒度审计

徒手打造 eBPF 执行追踪器：为何及如何超越 Tetragon 的预设边界

手把手教你编写 EnvoyFilter：如何实现自定义的七层协议解析

Istio 进阶：如何将 JWT 校验失败的“纯文本”响应优雅地改为 JSON 格式？

万级 Pod 挑战：放弃 iptables，用 Cilium eBPF 实现超大规模 K8s 网络微隔离落地实践

裸金属 K8s 环境下 FRR 与 Cilium BGP Control Plane 对接实战

Istio Ambient Mode 与外部 LB 的碰撞：入站流量可观测性与零信任安全的破局之道

大规模 K8s 集群中 RunPodSandbox 频繁超时的深层诱因与落地调优指南

深入剖析：如何巧用Linkerd流量转移，实现Kubernetes下的蓝绿部署与金丝雀发布

Istio外部授权服务高可用部署与OIDC集成最佳实践

大型多团队微服务：如何用 Istio 授权策略实现精细权限控制？

揭秘Istio流量迁移的魔法：VirtualService、DestinationRule与Envoy的协同作战

使用 Prometheus Operator 实现 Kubernetes 跨命名空间监控：ServiceMonitor 配置指南