文章标签

林深

Volcano Gang Scheduling 机制详解：All-or-Nothing 分配策略在分布式训练中的死锁预防与资源碎片优化实践

分布式训练的“调度噩梦”：为什么默认 K8s 调度器不够用？在大规模语言模型或视觉多模态训练中，数据并行（DDP）、张量并行（TP）与流水线并行（PP）已成为标配。这类任务具有一个致命特征：强同步屏障。以 PyTorch DDP...

2026/4/12 0 150 0 0 0 云原生AI调度 Volcano机制分布式训练优化
别把原始日志直接扔给业务：一套让监控看板说人话的协作SOP

技术团队甩过来一堆 {"status": 500, "trace_id": "xxx", "latency": 2100ms} ，业务方打开看板直接懵圈。这...

2026/4/4 0 162 0 0 0 监控看板设计跨部门协作业务指标映射
用 Prometheus Recording Rules 消除 90% 瞬时抖动误报，且告警延迟压到 30 秒内

在云原生环境中，网络瞬断、GC 停顿、节点调度漂移等都会导致指标出现毫秒级毛刺。传统做法是直接在 Alert Rules 里加 for 持续时间，但这会陷入两难： for 设短了误报频发，设长了关键故障响应超时。 Recordi...

2026/4/10 0 138 0 0 0 Prometheus SRE实践告警降噪
开放世界游戏如何激发玩家的好奇心和探索欲望？以《塞尔达传说：旷野之息》为例

开放世界游戏近年来风靡全球，其核心魅力在于给予玩家极高的自由度和探索空间。但一个成功的开放世界游戏，并非仅仅是地图大、内容多就足够了，更重要的是如何激发玩家的好奇心和探索欲望，让他们主动去发现游戏的乐趣。本文将以《塞尔达传说：旷野之息》为...

2025/1/2 0 622 0 0 0 开放世界游戏游戏设计玩家体验

文章标签

林深

Volcano Gang Scheduling 机制详解：All-or-Nothing 分配策略在分布式训练中的死锁预防与资源碎片优化实践

别把原始日志直接扔给业务：一套让监控看板说人话的协作SOP

用 Prometheus Recording Rules 消除 90% 瞬时抖动误报，且告警延迟压到 30 秒内

开放世界游戏如何激发玩家的好奇心和探索欲望？以《塞尔达传说：旷野之息》为例