文章标签

分布式训练优化

Volcano Gang Scheduling 机制详解：All-or-Nothing 分配策略在分布式训练中的死锁预防与资源碎片优化实践

分布式训练的“调度噩梦”：为什么默认 K8s 调度器不够用？在大规模语言模型或视觉多模态训练中，数据并行（DDP）、张量并行（TP）与流水线并行（PP）已成为标配。这类任务具有一个致命特征：强同步屏障。以 PyTorch DDP...

2026/4/12 0 166 0 0 0 云原生AI调度 Volcano机制分布式训练优化
边缘计算如何赋能机器学习模型训练：分布式加速的实践与挑战

在当前数据爆炸的时代，机器学习模型的训练对计算资源的需求越来越高。传统上，我们习惯将所有数据汇集到中心化的云端进行训练，这种模式虽然强大，但随着IoT设备数量的激增和数据生成量的几何级增长，它开始显露出瓶颈：高昂的数据传输成本、网络延迟、...

2025/8/4 0 261 0 0 0 边缘计算联邦学习模型训练
深度学习模型优化：Apex在PyTorch中的应用与实践

深度学习模型优化：Apex在PyTorch中的应用与实践深度学习模型的训练往往需要消耗大量的计算资源和时间。为了提高训练效率，各种优化技术被广泛应用，其中混合精度训练（Mixed Precision Training）是一种非常有效...

2024/12/29 0 583 0 0 0 深度学习模型优化 Apex