MySQL性能监控与告警：告别“大海捞针”式排查

2025/8/30 05:14:12 202 0 0 0

你是否也曾有过这样的经历：生产环境的MySQL数据库突然慢如蜗牛，CPU和内存看起来正常，但应用层却怨声载道？当你终于介入时，发现问题已经持续了一段时间，而你还在大海捞针般地尝试定位是哪个SQL在作怪，或者又是哪次连接耗尽了资源？只盯着CPU和内存的概览数据，就像盲人摸象，根本无法洞悉数据库内部的真实“健康状况”。

作为一名技术人，我深知这种“被动式救火”的痛苦。今天，我们就来聊聊如何搭建一套更细致、更主动的MySQL性能监控与告警体系，让你能够先于用户发现问题，并能快速精准地定位。

为什么仅仅CPU和内存不足以进行MySQL监控？

CPU和内存是操作系统层面的宏观指标，它们固然重要，但对于MySQL这类复杂的应用来说，它们只是表象。一个数据库可能CPU使用率不高，但却被大量慢查询拖垮；也可能内存充裕，但因为不合理的索引导致I/O瓶颈。我们真正需要的是深入到MySQL内部，了解它的“脉搏”和“呼吸”。

我们应该监控哪些MySQL核心指标？

要告别“大海捞针”，我们需要监控以下几类核心指标：

连接与线程状态：
- Threads_connected：当前连接数。
- Threads_running：当前正在运行的线程数。
- Aborted_connects：被中断的连接数，可能是客户端配置问题或网络问题。
- Max_used_connections：历史最高连接数，有助于判断max_connections设置是否合理。
- 告警点： 连接数持续接近max_connections，Threads_running过高，Aborted_connects异常增加。
查询性能：
- 慢查询日志（Slow Query Log）：这是排查慢查询的金矿。记录执行时间超过long_query_time的查询。
- Questions：自启动以来的查询总数。
- QPS (Queries Per Second)：每秒查询数。
- TPS (Transactions Per Second)：每秒事务数。
- Handler_read_*系列：衡量索引使用情况，如Handler_read_rnd_next过高可能表明全表扫描。
- 告警点： 慢查询日志频繁出现，QPS/TPS陡降或陡升，平均查询响应时间升高。
事务与锁：
- Innodb_row_lock_current_waits：当前正在等待行锁的事务数量。
- Innodb_row_lock_time_avg：行锁平均等待时间。
- Innodb_deadlocks：死锁发生次数。
- Table_locks_waited：表锁等待次数。
- 告警点： 行锁等待数量或平均等待时间持续增长，死锁频繁发生。
缓冲池（Buffer Pool）与I/O： (主要针对InnoDB)
- Innodb_buffer_pool_reads：无法从缓冲池中满足的逻辑读请求次数，需要从磁盘读取。
- Innodb_buffer_pool_read_requests：总的逻辑读请求次数。
- Innodb_buffer_pool_pages_data：缓冲池中包含数据页的数量。
- Innodb_data_reads/Innodb_data_writes：物理磁盘读写操作次数。
- 告警点： Innodb_buffer_pool_reads占总读请求的比例（命中率）过低，物理I/O持续高位。
复制状态： (如果使用主从复制)
- Slave_IO_running和Slave_SQL_running：复制线程是否正常运行。
- Seconds_Behind_Master：从库落后主库的秒数。
- 告警点： 复制线程停止，从库延迟异常增大。
临时表和文件排序：
- Created_tmp_tables：在内存中创建的临时表数量。
- Created_tmp_disk_tables：在磁盘上创建的临时表数量（性能开销更大）。
- Sort_merge_passes：排序合并的次数。
- 告警点： 磁盘临时表创建数量或排序合并次数激增。

搭建主动监控与告警系统

有了这些细致的指标，我们接下来就需要工具来收集、可视化并告警。

数据收集与存储：
- Performance Schema / sys schema： MySQL内置的性能分析工具，提供极其详细的运行时数据。sys schema在Performance Schema之上提供了更友好的视图。这是获取细粒度诊断数据的基石。
- Prometheus + Exporter： mysqld_exporter能将MySQL的各种状态指标暴露给Prometheus，Prometheus负责拉取并存储时序数据。
- Percona Monitoring and Management (PMM)： PMM是一个功能强大的开源平台，集成了Prometheus、Grafana和自研的percona-exporter，对MySQL和MongoDB有深度支持，能够提供非常详细的指标和慢查询分析。
数据可视化：
- Grafana： 配合Prometheus，可以构建高度自定义的监控仪表盘，将上述关键指标以图表形式直观展示。
- PMM自带Dashboard： PMM提供了开箱即用的专业级MySQL监控面板，能让你迅速定位问题。
告警机制：
- Alertmanager (配合Prometheus)： 设定各种指标的阈值，当超过阈值时通过邮件、Slack、Webhook等方式发送告警。
- PMM自带告警： PMM也提供了告警功能，可以基于其收集的指标设置规则。
- 自定义脚本： 对于一些特定场景，可以通过脚本定时检查sys.processlist或慢查询日志，并结合企业IM工具进行告警。

最佳实践与建议

建立基线： 记录数据库正常运行时的各项指标，这样当异常发生时，你才能快速发现偏离。
慢查询分析常态化： 定期审查慢查询日志，使用pt-query-digest等工具分析，找出执行效率低下的SQL语句进行优化。
关联应用日志： 将数据库指标与应用服务的日志、请求响应时间等关联起来，形成全链路的监控视角。
告警阈值调优： 初始阈值可能不准确，需要根据实际运行情况不断调整，减少误报和漏报。告警应该具备可操作性，清晰指明问题方向。
性能压测： 在新功能上线或配置调整前，进行充分的性能压测，模拟高并发场景，提前发现瓶颈。

结语

从CPU、内存的粗略概览，到连接、查询、锁、I/O等细致入微的监控，再到主动的告警机制，这不仅仅是工具的升级，更是运维理念的转变。告别“大海捞针”式的排查，主动掌控数据库的健康状况，才能让你的系统更加稳健，让你从容应对挑战。现在，就动手去搭建你的MySQL深度监控体系吧！

DBA老王 MySQL监控数据库性能慢查询

MySQL性能监控与告警：告别“大海捞针”式排查

为什么仅仅CPU和内存不足以进行MySQL监控？

我们应该监控哪些MySQL核心指标？

搭建主动监控与告警系统

最佳实践与建议

结语

评论点评