GBase 8c性能优化实战：从统计信息到执行计划调优全解析

文章目录[隐藏]

一、性能优化的基石：理解执行计划生成机制
二、必备优化手段：更新统计信息
三、发现性能瓶颈：如何定位慢SQL？
四、深度干预：使用Plan Hint改变执行计划
五、系统级调优：关键GUC参数配置
六、 SQL语句改写优化经验
七、总结

一、性能优化的基石：理解执行计划生成机制

GBase 8c作为一款基于代价的分布式数据库，其优化器会像一位精明的“导航系统”，为每条SQL语句选择它认为最优的执行路径（即执行计划）。这个决策严重依赖于“地图数据”——也就是统计信息。

优化器需要根据 ANALYZE 命令收集的统计信息（存储在 pg_class 和 pg_statistic 系统表中）进行行数估算和代价估算。没有收集或陈旧的统计信息，就像使用过时的地图，极易导致优化器“迷路”，生成劣质的执行计划，从而引发严重的性能问题。

核心观点：在尝试任何复杂优化手段前，请首先确保您的统计信息是准确且最新的。

二、必备优化手段：更新统计信息

统计信息是规划器生成计划的源数据。以下是更新统计信息的标准操作：

-- 更新单个表的统计信息ANALYZE tablename;
-- 更新当前数据库所有表的统计信息ANALYZE;
-- 收集表中特定列的多列统计信息（适用于有关联的列）ANALYZE tablename((column_1, column_2));

自动化管理：GBase 8c提供了autovacuum守护进程，可自动回收空间并更新统计信息。您可以通过 autovacuum 和 autovacuum_mode 等参数来控制其行为（如设置为 mix 模式以同时进行清理和分析）。

三、发现性能瓶颈：如何定位慢SQL？

在进行优化前，我们需要先找到“元凶”。

业务表现：接口超时、应用响应慢或报错，是最直接的信号。
主动发现：通过数据库巡检或查询慢日志。

开启慢日志：配置 track_stmt_stat_level 参数（例如设置为 'OFF,L0' ）并确保 enable_stmt_track 为 on 。
查看慢日志：使用系统函数查询特定时间段的慢SQL。

SELECT * FROM dbe_perf.get_global_slow_sql_by_timestamp('2024-05-07 04:00:00', '2024-05-07 04:10:00');

四、深度干预：使用Plan Hint改变执行计划

当优化器选择的计划不理想时，GBase 8c提供了强大的 Plan Hint 功能，允许开发者直接“指导”优化器生成我们想要的执行计划。

1. 使用方法：

在SQL语句前使用 /*+ ... */ 注释语法添加Hint。多个Hint之间用空格分隔。

SELECT /*+   */ * FROM table_name;

2. 支持的范围：

指定Join顺序： Leading((t1 t2 t3))
指定Join方式： NestLoop(t1 t2) 、 HashJoin(t1 t2) 、 MergeJoin(t1 t2)
指定Scan方式： IndexScan(t1 index_name) 、 SeqScan(t1) 、 IndexOnlyScan(t1 index_name)
指定结果集行数： Rows(t1 #10) （暗示优化器t1表大约有10行）

3. 调优示例：

默认情况下，两个表的关联可能使用 HashJoin 。如果我们认为 NestLoop 更优，可以强制指定：

-- 默认可能是HashJoin EXPLAIN SELECT * FROM stu s JOIN stu_info i ON s.id = i.stu_id;
-- 使用Hint强制使用NestLoop SELECT /*+ NestLoop(s i) */ * FROM stu s JOIN stu_info i ON s.id = i.stu_id;

注意：Hint是一把双刃剑。它绕过了优化器的成本计算，如果使用不当或表数据分布发生变化，可能导致更差的性能。应将其作为最终手段，并持续验证其有效性。

五、系统级调优：关键GUC参数配置

通过调整数据库参数（GUC参数），可以让执行计划倾向更优的规划。

工作内存： work_mem 增加此值有助于提高排序、Hash连接等操作在内存中的完成几率，减少磁盘I/O。
共享缓冲区： shared_buffers 用于缓存数据，对于读密集型应用，适当增大此值可显著提升性能。
优化器开关：如 enable_hashjoin 、 enable_indexscan 等，可以关闭某种查询策略，强制优化器选择其他方式（与Hint效果类似，但作用范围是会话或全局）。

设置方法（示例）：

使用 gs_guc 工具修改参数，修改后需重启或重载配置生效。

gs_guc set -Z coordinator -D /path/to/data_dir -c "work_mem = 16MB"

六、 SQL语句改写优化经验

遵守一定的SQL编写规则，常常能大幅提升效率。

用 UNION ALL 替代 UNION ：如果业务逻辑能保证两个结果集没有重复数据，使用 UNION ALL 可以避免昂贵的去重操作。
为JOIN列增加非空过滤：如果JOIN列上NULL值较多，添加 IS NOT NULL 条件可以实现数据提前过滤，提高JOIN效率。
使用 TRUNCATE 而非 DELETE 清空表： TRUNCATE 操作更快，且会立即释放磁盘空间。
在INSERT语句中显式指定字段名：提高可读性和稳定性。
选择合适的存储模型：根据业务场景（OLTP或OLAP）选择行存表或列存表。

七、总结

GBase 8c的性能优化是一个系统性的工程，其基本流程可以总结为下图所示的闭环：

原创文章，作者：kirin，如若转载，请注明出处：https://blog.ytso.com/tech/bigdata/317628.html

GBase 8c性能优化实战：从统计信息到执行计划调优全解析

一、 性能优化的基石：理解执行计划生成机制

二、 必备优化手段：更新统计信息

三、 发现性能瓶颈：如何定位慢SQL？

四、 深度干预：使用Plan Hint改变执行计划

五、 系统级调优：关键GUC参数配置