文章标签

调度插件

深度解析 K8s 调度器扩展框架：编写自定义插件支持复杂 AI 任务

在云原生时代，Kubernetes (K8s) 已成为管理容器化应用的事实标准。然而，随着 AI/ML 任务的爆发式增长，默认调度器的“逐个 Pod 调度”逻辑逐渐显露疲态。AI 训练通常涉及分布式计算（如 PyTorch DDP、Ten...

2026/4/12 0 97 0 0 0 Kubernetes AI基础设施调度算法
K8s 调度 DSA 设备：如何化解 NUMA 拓扑感知与 Pod 约束的冲突？

在高性能计算（HPC）和数据密集型应用中，Intel 的 DSA（Data Streaming Accelerator）设备已成为提升内存拷贝与数据转换效率的利器。然而，在 Kubernetes (K8s) 环境中，通过 Device P...

2026/4/12 0 73 0 0 0 Kubernetes DSA NUMA
深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

在分布式训练（如 AI 模型训练）和高性能计算（HPC）场景中，任务通常要求“要么全部运行，要么全不运行”。这种需求被称为 Gang Scheduling 。虽然 Kubernetes 原生调度器最初是为长连接微服务设计的，但通过 S...

2026/4/12 0 123 0 0 0 Kubernetes 调度插件云原生架构
多集群架构下强化学习调度器的部署与联邦策略学习落地实践

在多云和多集群（Multi-Cluster）架构成为企业基础设施标配的今天，跨集群的资源调度面临着前所未有的挑战。传统的基于启发式规则（如 LeastRequestedPriority、BalancedResourceAllocation...

2026/6/4 0 126 0 0 0 Kubernetes 强化学习联邦学习

文章标签

调度插件

深度解析 K8s 调度器扩展框架：编写自定义插件支持复杂 AI 任务

K8s 调度 DSA 设备：如何化解 NUMA 拓扑感知与 Pod 约束的冲突？

深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

多集群架构下强化学习调度器的部署与联邦策略学习落地实践