On-call 倦怠的隐形加速器：团队心理安全感的三个断层

2026/4/13 06:28:12 21 0 0 0

凌晨两点的两种剧本

同样的告警，同样的 P1 故障，为什么 A 团队的工程师在值班后需要整整三天才能恢复生产力，而 B 团队的工程师第二天上午就能正常参与代码评审？

这不是意志力或敬业度的差异。根据我在多家基础设施团队的观察，高 burnout 团队与韧性团队之间的"心理耗能比"往往达到 3:1 甚至更高。问题的根源不在于告警数量本身，而在于告警发生时，大脑所处的"心理生态位"。

高 burnout 团队的特征：告警内容含糊（"服务异常"），影响范围不明， escalation 路径像迷宫。工程师长期处于**认知警觉（Hypervigilance）**状态——即使没有告警，潜意识也在扫描威胁。

心理学机制：不确定性会触发大脑的"威胁检测回路"，持续消耗前额叶皮层的葡萄糖储备。这种"不确定性税"让一次简单的重启操作背负了巨大的认知债务。

韧性 team's 设计：

危险信号：当值班工程师说出"这台服务器只有我能救"时，团队已经滑向孤立性应激（Isolated Stress）。

高 burnout 陷阱："英雄文化"将值班责任原子化到个人。告警响起时，工程师感受到的是被审判的恐惧而非解决问题的兴奋。这种孤独感会放大皮质醇水平，且缺乏社会支持进行情绪调节。

韧性 team's 协议：

最关键的断层：工程师是否相信"我能从根本上减少这类告警"？

当团队长期处于反应性救火（Reactive Firefighting）模式，工程师会发展出习得性无助（Learned Helplessness）——即使面对可修复的根因，也默认只能做临时止血。这种代理感（Agency）的丧失是 burnout 的核心加速器。

韧性 team's 机制：

每周 2 小时根因预算：强制要求值班人员将 20% 的值班时间用于永久性修复，而非仅仅关闭告警
噪声消灭游戏：每月统计"无需人工介入即可自愈的告警"，团队一起优化阈值，让工程师看到系统随自己意志改变
轮换的节律感：遵循 Ultradian Rhythm（超日节律），单次值班不超过 12 小时，确保 REM 睡眠周期的完整性，支持大脑对创伤性事件的记忆再巩固（Reconsolidation）

如果你怀疑自己的团队正处于高 burnout 轨道，用以下三个问题快速诊断：

那 3 倍的 burnout 速度差异，本质上是系统韧性的量化体现。当告警无法避免时，我们能设计的是告警发生时的权力结构——工程师是拥有资源与支持的"第一响应者"，还是独自面对混沌的"替罪羊"。

修复 On-call 体验不是加装更多监控，而是重建**心理安全感（Psychological Safety）**的技术底座。毕竟，最好的 on-call 轮换，是让工程师在深夜接到电话时，第一反应是"终于可以解决这个问题了"，而不是"为什么又是我"。

SRE老兵阿杰 On-call 工程师职业倦怠团队心理安全