云原生构建师
-
深入解析 K8s Coscheduling:实现 Gang 调度及其在大规模拓扑下的局限性
在分布式训练(如 AI 模型训练)和高性能计算(HPC)场景中,任务通常要求“要么全部运行,要么全不运行”。这种需求被称为 Gang Scheduling 。虽然 Kubernetes 原生调度器最初是为长连接微服务设计的,但通过 S...
在分布式训练(如 AI 模型训练)和高性能计算(HPC)场景中,任务通常要求“要么全部运行,要么全不运行”。这种需求被称为 Gang Scheduling 。虽然 Kubernetes 原生调度器最初是为长连接微服务设计的,但通过 S...