SRE运维
-
告警规则,是时候告别误报和漏报了!
各位同行们,大家好!作为一名在运维和SRE领域摸爬滚打多年的老兵,我深知一套设计良好的告警规则对系统稳定性的重要性。但与此同时,误报(False Positive)带来的“告警疲劳”和漏报(False Negative)导致的“生产事故”...
-
Docker Swarm 脑裂双活灾难:用 Keepalived + 状态自愈脚本实现分区节点秒级自动切断
在生产环境中,最让人头疼的不是整个集群彻底宕机,而是节点处于**“半死不活”**的状态。 在基于 Docker Swarm 搭建的高可用集群中,我们通常会在多个 Manager 节点上部署 Keepalived,通过虚拟 IP(VIP...
0 39 0 0 0 Keepalived脑裂保护 -
ArgoCD ApplicationSet 多集群管理与 CI/CD 自动回滚实战指南
ArgoCD ApplicationSet 多集群管理与 CI/CD 自动回滚实战指南 在多租户或多集群的 Kubernetes 环境中,手动维护成百上千个 ArgoCD Application 资源简直是运维噩梦。 Applic...