文章标签

NUMA

Volcano Gang Scheduling 机制详解：All-or-Nothing 分配策略在分布式训练中的死锁预防与资源碎片优化实践

分布式训练的“调度噩梦”：为什么默认 K8s 调度器不够用？在大规模语言模型或视觉多模态训练中，数据并行（DDP）、张量并行（TP）与流水线并行（PP）已成为标配。这类任务具有一个致命特征：强同步屏障。以 PyTorch DDP...

2026/4/12 0 49 0 0 0 云原生AI调度 Volcano机制分布式训练优化
Volcano 与原生 K8s 调度器在分布式深度学习中的实战对比

在构建企业级 AI 训练平台时，调度器往往是决定 GPU 集群利用率与任务交付效率的核心瓶颈。原生 K8s 调度器（kube-scheduler）为通用微服务设计，而 Volcano 是 CNCF 沙箱项目中专为 HPC 与 AI 负载打...

2026/4/12 0 33 0 0 0 分布式深度学习 Volcano
深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

在分布式训练（如 AI 模型训练）和高性能计算（HPC）场景中，任务通常要求“要么全部运行，要么全不运行”。这种需求被称为 Gang Scheduling 。虽然 Kubernetes 原生调度器最初是为长连接微服务设计的，但通过 S...

2026/4/12 0 36 0 0 0 Kubernetes 调度插件云原生架构
多租户AI平台GPU配额管理：层级队列与公平调度实战

在构建企业级多租户AI训练与推理平台时，GPU是最昂贵且最容易引发资源争抢的硬件。当数十个团队共享同一套GPU集群时，简单的“先到先得”或静态分配必然导致两大灾难：资源闲置浪费与关键任务饿死。解决这一矛盾的核心，在于一套严谨的层级...

2026/4/12 0 37 0 0 0 GPU集群调度资源配额管理公平调度算法
基于 eBPF 穿透 Alertmanager 高并发瓶颈：Goroutine 调度、锁竞争与 GC 停顿的内核级调优

在告警风暴或大规模监控集群场景下，Alertmanager 常出现通知延迟、路由堆积甚至 OOM 崩溃。传统 pprof 仅能反映用户态采样结果，却难以揭示内核调度延迟、上下文切换开销、页面回收（Page Reclaim）与 Go...

2026/4/11 0 64 0 0 0 eBPF观测 Go运行时诊断
CXL 2.0 内存池化架构中 SPDK 的角色演变：用户态驱动如何接管缓存一致性责任

内存语义革命：当 SPDK 面对字节级寻址 CXL 2.0 引入的内存池化（Memory Pooling）彻底改变了数据中心的资源拓扑。传统架构中，SPDK 通过用户态轮询（Polling）机制绕过内核 I/O 栈，专为 NVMe 块...

2026/4/12 0 43 0 0 0 CXL 20 SPDK 内存池化
生产环境eBPF程序踩坑全记录:从资源限制破解到性能翻倍实战

为什么你的eBPF程序总在生产环境崩溃？上周深夜收到告警——某核心服务的TCP重传监控eBPF程序突然OOM被杀。查了半小时才发现是map默认32KB上限被突发流量击穿。这种经历恐怕很多同行都有过痛感: eBPB在生产环境的表现远比...

2026/4/16 0 21 0 0 0 eBPP实战 Linux内核调优生产环境监控

文章标签

NUMA

Volcano Gang Scheduling 机制详解：All-or-Nothing 分配策略在分布式训练中的死锁预防与资源碎片优化实践

Volcano 与原生 K8s 调度器在分布式深度学习中的实战对比

深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

多租户AI平台GPU配额管理：层级队列与公平调度实战

基于 eBPF 穿透 Alertmanager 高并发瓶颈：Goroutine 调度、锁竞争与 GC 停顿的内核级调优

CXL 2.0 内存池化架构中 SPDK 的角色演变：用户态驱动如何接管缓存一致性责任

生产环境eBPF程序踩坑全记录:从资源限制破解到性能翻倍实战