`pg_repack` 助力 PostgreSQL 性能优化：与 `pg_stat_statements` 和 `auto_explain` 深度融合

2025/3/8 16:00:28 84 0 0 0

为什么需要 pg_repack？

pg_repack 的基本用法

pg_stat_statements 和 auto_explain 的作用

pg_stat_statements

auto_explain

pg_repack 与 pg_stat_statements 和 auto_explain 的结合使用

实例演示：解决表膨胀问题

常见问题及解决方法

总结

嘿，哥们儿！我是老司机，今天咱们聊聊 PostgreSQL 的性能优化，特别是怎么用 pg_repack 这个神器，配合 pg_stat_statements 和 auto_explain 这俩好帮手，把数据库的性能榨干！别以为这只是 DBA 的事儿，作为程序员，你也要懂点数据库优化，这样写出来的代码才能更给力，减少线上事故。准备好你的键盘，咱们开始吧！

为什么需要 `pg_repack`？

PostgreSQL 数据库在使用过程中，由于数据的增删改查，表和索引会变得碎片化，这会导致查询效率下降。想象一下，你的硬盘文件碎片化了，读取一个文件是不是慢得要死？数据库也是一样。pg_repack 的作用就像是硬盘碎片整理，它能够重新组织表和索引，消除碎片，提高查询性能。这就像是给你心爱的数据库做一次“美容”和“瘦身”。

除了碎片化，长时间运行的数据库还会面临其他问题，比如：

表膨胀： 当你频繁地更新或删除数据时，表中的数据会产生“空洞”，导致表的大小不断增长，即使实际数据量并没有增加。pg_repack 可以通过重新组织数据来解决这个问题。
索引失效： 索引是加速查询的关键。但是，如果索引的统计信息不准确，或者索引没有被正确地使用，那么索引就失去了它的作用。pg_repack 可以在重新构建索引的同时，更新索引的统计信息。
并发问题： 传统的 VACUUM FULL 命令可以整理表，但是它会锁表，导致数据库不可用。pg_repack 则采用了更安全的方式，它通过创建新的表和索引，然后切换表的方式来避免锁表，保证数据库的可用性。

`pg_repack` 的基本用法

首先，确保你已经安装了 pg_repack 扩展。如果没有，可以使用以下命令安装：

CREATE EXTENSION pg_repack;

然后，你可以使用 pg_repack 命令来整理表。最简单的用法是：

pg_repack -d <database_name> -t <table_name>

-d：指定数据库名称。
-t：指定要整理的表名。

例如，要整理数据库 mydb 中的表 mytable，可以这样写：

pg_repack -d mydb -t mytable

当然，你还可以使用一些其他的参数来控制 pg_repack 的行为，比如：

-j：指定并行工作线程的数量。默认是 2，可以根据你的 CPU 核心数进行调整，例如 -j 4。
-i：显示进度信息。
-n：只显示要执行的操作，不真正执行。
-v：显示详细的日志信息。
-s：仅对表进行瘦身，不进行索引的重建。

需要注意的是：

pg_repack 需要超级用户权限，或者拥有 REPLICATION 权限的用户。
在运行 pg_repack 之前，最好先备份你的数据库。
在高峰期，pg_repack 可能会对数据库的性能产生一定的影响，所以最好选择在低峰期进行操作。
在整理大型表时，可能需要较长的时间，请耐心等待。

`pg_stat_statements` 和 `auto_explain` 的作用

pg_repack 是一个好用的工具，但它并不能告诉你你的数据库到底哪里有问题。你需要其他的工具来诊断数据库的性能瓶颈。pg_stat_statements 和 auto_explain 就是这样的好帮手。

`pg_stat_statements`

pg_stat_statements 是一个 PostgreSQL 扩展，它可以记录数据库中每个 SQL 语句的执行时间、执行次数、平均执行时间等信息。通过分析这些信息，你可以找到执行时间最长的 SQL 语句，也就是潜在的性能瓶颈。

首先，你需要安装并启用 pg_stat_statements 扩展：

CREATE EXTENSION pg_stat_statements;

然后，你可以查询 pg_stat_statements 视图来获取 SQL 语句的统计信息：

 SELECT
    query,
    calls,
    total_time,
    mean_time
FROM
    pg_stat_statements
ORDER BY
    total_time DESC
LIMIT 10;

这个查询会显示执行时间最长的 10 条 SQL 语句。你可以根据这些信息来优化你的 SQL 语句，比如：

添加索引。
优化查询条件。
重写 SQL 语句。
检查是否有全表扫描。

`auto_explain`

auto_explain 也是一个 PostgreSQL 扩展，它可以自动记录执行时间超过指定阈值的 SQL 语句的执行计划。执行计划可以告诉你 PostgreSQL 数据库是如何执行 SQL 语句的，比如使用了哪些索引、进行了哪些表扫描等。通过分析执行计划，你可以找到 SQL 语句的性能瓶颈，并进行优化。

首先，你需要安装并启用 auto_explain 扩展：

CREATE EXTENSION auto_explain;

然后，你需要设置一些配置参数，比如：

 -- 启用 auto_explain
SET auto_explain.log_analyze TO true;
-- 设置执行时间阈值，单位为毫秒
SET auto_explain.log_min_duration TO 100;
-- 设置输出到服务器日志
SET auto_explain.log_verbose TO true;
-- 设置输出的详细程度
SET auto_explain.log_format TO 'text';

设置完成后，当 SQL 语句的执行时间超过 100 毫秒时，auto_explain 就会把 SQL 语句的执行计划输出到服务器日志中。你可以通过查看服务器日志来分析执行计划，找到性能瓶颈。

`pg_repack` 与 `pg_stat_statements` 和 `auto_explain` 的结合使用

现在，咱们把这三个工具结合起来，看看怎么解决实际问题。假设你的数据库性能下降了，你可以这样操作：

使用 pg_stat_statements 找到慢查询： 运行 pg_stat_statements 查询，找到执行时间最长的 SQL 语句。例如，你发现下面这条 SQL 语句很慢：
```
SELECT * FROM orders WHERE order_date BETWEEN '2023-01-01' AND '2023-01-31';
```

使用 auto_explain 分析慢查询的执行计划： 启用 auto_explain，并设置适当的阈值。然后，运行慢查询，auto_explain 会把执行计划输出到服务器日志中。例如，你发现执行计划中没有使用索引，或者进行了全表扫描。

 QUERY PLAN
---------------------------------------------------------------------------------------------------
Seq Scan on orders  (cost=0.00..12345.67 rows=1234 width=1234)
  Filter: ((order_date >= '2023-01-01'::date) AND (order_date <= '2023-01-31'::date))
(3 rows)

优化 SQL 语句或添加索引： 根据执行计划，优化 SQL 语句或添加索引。例如，你可以在 order_date 列上添加一个索引：
```
CREATE INDEX idx_orders_order_date ON orders (order_date);
```
使用 pg_repack 整理表和索引： 经过一段时间的使用，你可能需要使用 pg_repack 来整理表和索引，消除碎片，提高查询性能。
```
pg_repack -d mydb -t orders
```
重复以上步骤： 优化后，再次运行 pg_stat_statements 和 auto_explain，检查性能是否得到了提升。如果还有慢查询，重复以上步骤，直到数据库的性能达到你的要求。

实例演示：解决表膨胀问题

让我们通过一个更具体的例子来演示 pg_repack 的用法。假设你有一个名为 user_logs 的表，用于记录用户的登录日志。由于频繁的插入和删除操作，这个表变得非常大，而且出现了表膨胀的问题。

检查表的大小和碎片化程度：

首先，使用以下 SQL 语句检查 user_logs 表的大小和碎片化程度：

 SELECT
    pg_size_pretty(pg_table_size('user_logs')) AS table_size,
    pg_size_pretty(pg_indexes_size('user_logs')) AS index_size,
    pg_size_pretty(pg_total_relation_size('user_logs')) AS total_size,
    (SELECT relpages FROM pg_class WHERE relname = 'user_logs') AS pages,
    (SELECT reltuples FROM pg_class WHERE relname = 'user_logs') AS tuples;

你会看到 user_logs 表非常大，而且 relpages 的值也很高，这表明表可能存在严重的碎片化问题。

使用 pg_repack 整理表：

接下来，使用 pg_repack 整理 user_logs 表：
```
pg_repack -d mydb -t user_logs
```
运行 pg_repack 命令，它会创建一个新的表和索引，并将数据复制到新的表中。然后，它会切换表，将旧的表替换为新的表。这个过程不会锁表，所以不会影响数据库的正常运行。

再次检查表的大小和碎片化程度：

整理完成后，再次运行之前的 SQL 语句，检查 user_logs 表的大小和碎片化程度：

 SELECT
    pg_size_pretty(pg_table_size('user_logs')) AS table_size,
    pg_size_pretty(pg_indexes_size('user_logs')) AS index_size,
    pg_size_pretty(pg_total_relation_size('user_logs')) AS total_size,
    (SELECT relpages FROM pg_class WHERE relname = 'user_logs') AS pages,
    (SELECT reltuples FROM pg_class WHERE relname = 'user_logs') AS tuples;

你会发现 user_logs 表的大小和 relpages 的值都减小了，这表明表膨胀问题得到了解决。

监控和维护：

定期使用 pg_repack 整理表，可以防止表膨胀问题的再次出现。你还可以使用 pg_stat_statements 和 auto_explain 来监控数据库的性能，及时发现和解决性能问题。

常见问题及解决方法

在使用 pg_repack 的过程中，你可能会遇到一些问题。下面是一些常见问题及解决方法：

问题：pg_repack 报错，提示没有权限。
- 解决方法： 确保你使用的用户拥有超级用户权限，或者拥有 REPLICATION 权限。
问题：pg_repack 运行时间过长。
- 解决方法： 尝试增加 -j 参数的值，提高并行工作线程的数量。另外，检查数据库的硬件资源，比如 CPU、内存、磁盘 I/O 等，确保资源充足。
问题：pg_repack 报错，提示表上有锁。
- 解决方法： 检查是否有其他进程正在访问该表。如果是长时间运行的事务，可以考虑结束事务，或者等待事务完成后再运行 pg_repack。
问题：pg_repack 运行过程中出现错误，导致数据不一致。
- 解决方法： 在运行 pg_repack 之前，一定要备份数据库。如果出现错误，可以从备份中恢复数据。另外，检查 pg_repack 的日志文件，查看错误信息，并根据错误信息进行排查。

总结

pg_repack 是一个非常实用的工具，它可以帮助你优化 PostgreSQL 数据库的性能，解决表膨胀、索引失效等问题。结合 pg_stat_statements 和 auto_explain，你可以更好地诊断数据库的性能瓶颈，并进行有针对性的优化。希望这篇文章能够帮助你更好地使用 pg_repack 和其他 PostgreSQL 扩展，让你的数据库跑得更快更稳！

记住，数据库优化是一个持续的过程，需要不断地监控、分析和调整。不要害怕尝试，多实践，你就能成为数据库优化的专家！加油！

数据库老司机 PostgreSQL pg_repack 数据库优化 pg_stat_statements auto_explain

	SELECT
	query,
	calls,
	total_time,
	mean_time
	FROM
	pg_stat_statements
	ORDER BY
	total_time DESC
	LIMIT 10;

	-- 启用 auto_explain
	SET auto_explain.log_analyze TO true;
	-- 设置执行时间阈值，单位为毫秒
	SET auto_explain.log_min_duration TO 100;
	-- 设置输出到服务器日志
	SET auto_explain.log_verbose TO true;
	-- 设置输出的详细程度
	SET auto_explain.log_format TO 'text';

	QUERY PLAN
	---------------------------------------------------------------------------------------------------
	Seq Scan on orders (cost=0.00..12345.67 rows=1234 width=1234)
	Filter: ((order_date >= '2023-01-01'::date) AND (order_date <= '2023-01-31'::date))
	(3 rows)

	SELECT
	pg_size_pretty(pg_table_size('user_logs')) AS table_size,
	pg_size_pretty(pg_indexes_size('user_logs')) AS index_size,
	pg_size_pretty(pg_total_relation_size('user_logs')) AS total_size,
	(SELECT relpages FROM pg_class WHERE relname = 'user_logs') AS pages,
	(SELECT reltuples FROM pg_class WHERE relname = 'user_logs') AS tuples;

`pg_repack` 助力 PostgreSQL 性能优化：与 `pg_stat_statements` 和 `auto_explain` 深度融合

为什么需要 pg_repack？

pg_repack 的基本用法

pg_stat_statements 和 auto_explain 的作用

pg_stat_statements

auto_explain

pg_repack 与 pg_stat_statements 和 auto_explain 的结合使用

实例演示：解决表膨胀问题

常见问题及解决方法

总结

为什么需要 pg_repack？

pg_repack 的基本用法

pg_stat_statements 和 auto_explain 的作用

pg_stat_statements

auto_explain

pg_repack 与 pg_stat_statements 和 auto_explain 的结合使用

实例演示：解决表膨胀问题

常见问题及解决方法

总结

评论点评

为什么需要 `pg_repack`？

`pg_repack` 的基本用法

`pg_stat_statements` 和 `auto_explain` 的作用

`pg_stat_statements`

`auto_explain`

`pg_repack` 与 `pg_stat_statements` 和 `auto_explain` 的结合使用