博客 - 数据库性能调优方案：TiDB 全链路监控/慢查询诊断/索引优化实战

摘要

数据库性能直接影响业务用户体验与运营成本。本文以 TiDB 为例，系统阐述数据库性能调优的完整方法论，涵盖全链路监控体系搭建、慢查询诊断流程、索引优化策略、TiFlash 列存加速等核心实践，结合真实 SQL 案例提供可操作的调优步骤，帮助企业 DBA 和开发者建立体系化的性能优化能力。

本文适合谁：负责 TiDB 性能优化的 DBA、后端开发工程师及数据库架构师。

一、性能调优方法论

1.1 调优四象限

数据库性能调优应遵循"先诊断、后优化"的原则，按以下四象限分级处理：

象限	优化类型	影响	实施难度	优先级
第一象限	SQL 索引优化	局部查询性能大幅提升	低	最高
第二象限	Schema 与参数调优	整体吞吐提升	中	高
第三象限	架构与容量优化	长期扩展能力	高	中
第四象限	应用层优化	业务逻辑与访问模式	高	视场景

1.2 调优流程

监控告警 → 慢查询定位 → 执行计划分析 → 索引/SQL 优化
    ↑                                            │
    └──────── 效果验证 ← 回归测试 ← 变更发布 ←────┘

二、全链路监控体系

2.1 监控架构

监控层	工具	覆盖范围
基础设施	Prometheus + Grafana + Node Exporter	CPU/内存/磁盘 IO/网络
数据库核心	TiDB Dashboard + 内置 Prometheus	QPS/延迟/连接数/事务
SQL 级别	TiDB Slow Query Log + Top SQL	单条 SQL 耗时/扫描行数/执行计划
应用级别	APM（SkyWalking/Jaeger）	端到端请求延迟/数据库调用链
业务指标	自定义 Metrics	订单量/成功率/P99 延迟

2.2 关键监控指标

# Prometheus 告警规则示例
groups:
  - name: tidb_performance
    rules:
      - alert: HighQueryLatency
        expr: histogram_quantile(0.99, sum(rate(tidb_server_handle_query_duration_seconds_bucket[5m])) by (le)) > 1
        for: 5m
        labels:
          severity: warning

      - alert: HighCPUDashboard
        expr: tidb_server_cpu_quota_pct > 80
        for: 5m
        labels:
          severity: warning

      - alert: HighSlowQueryCount
        expr: rate(tidb_server_slow_query_total[5m]) > 10
        for: 5m
        labels:
          severity: warning

2.3 TiDB Dashboard 使用

TiDB Dashboard 内置可视化监控面板，涵盖：

慢查询分析：Top N 慢查询列表，支持按时间、用户、Schema 筛选
集群概览：QPS、连接数、存储使用率、Region 分布
执行计划可视化：图形化展示 SQL 执行计划（DAG）
热点分析：自动识别读写热点 Region，提示数据倾斜

三、慢查询诊断流程

3.1 慢查询配置

-- 设置慢查询阈值（默认 300ms）
SET GLOBAL tidb_slow_query_threshold = 200;

-- 启用慢查询日志记录
SET GLOBAL tidb_enable_slow_log = ON;

-- 记录完整执行计划到慢查询日志
SET GLOBAL tidb_record_plan_in_slow_log = ON;

3.2 慢查询分析方法

方法一：通过系统表查询

-- 查询最近 1 小时 Top 10 慢查询
SELECT
    query_time,
    parse_time,
    optimize_time,
    process_time,
    DB,
    index_names,
    plan,
    query_sample_text
FROM information_schema.slow_query
WHERE time BETWEEN DATE_SUB(NOW(), INTERVAL 1 HOUR) AND NOW()
ORDER BY query_time DESC
LIMIT 10;

方法二：通过 TiDB Dashboard

进入 TiDB Dashboard → Slow Query → 按响应时间排序 → 点击查看执行计划详情。

3.3 执行计划分析

-- 使用 EXPLAIN ANALYZE 获取实际执行计划
EXPLAIN ANALYZE
SELECT o.order_id, o.user_id, o.total_amount, u.username
FROM orders o
JOIN users u ON o.user_id = u.user_id
WHERE o.status = 'paid'
  AND o.created_at >= '2024-01-01'
ORDER BY o.total_amount DESC
LIMIT 100;

关键指标解读：

指标	含义	优化关注点
estRows	优化器估算行数	估算偏差大可能影响执行计划选择
actRows	实际扫描行数	actRows 远大于 estRows 需更新统计信息
execution time	实际执行时间	定位耗时最长的算子
operator	执行算子	Full Table Scan / Index Full Scan 需优化
task	执行位置	cop 任务在 TiKV，root 任务在 TiDB

3.4 常见慢查询模式

模式	症状	根因	优化方案
全表扫描	actRows 接近表总行数	缺少索引/索引失效	创建/修改索引
嵌套循环连接	多表关联耗时高	驱动表选择错误	添加索引或改写 SQL
大量数据回表	Index Lookup 耗时高	覆盖索引不足	创建联合索引
统计信息过期	estRows 与 actRows 差异大	未收集统计信息	ANALYZE TABLE
TiKV 热点	部分节点延迟高	数据写入倾斜	调整主键或分片键

四、索引优化策略

4.1 索引设计原则

最左前缀原则：联合索引按查询条件频率排序列
覆盖索引优先：索引包含所有查询列，避免回表
避免冗余索引：已存在联合索引 `(a, b)` 时不必再建 `(a)` 单列索引
高选择性优先：选择区分度高的列作为索引前导列

4.2 索引优化实战案例

案例：订单查询优化

-- 原始查询（全表扫描）
SELECT order_id, user_id, total_amount, status
FROM orders
WHERE user_id = 10086
  AND status IN ('paid', 'shipped')
  AND created_at >= '2024-01-01'
ORDER BY created_at DESC
LIMIT 20;

-- 优化方案：创建联合索引
ALTER TABLE orders
ADD INDEX idx_user_status_date (user_id, status, created_at, total_amount);

优化前后对比：

指标	优化前	优化后
扫描行数	5,000,000	156
执行时间	2.3s	3ms
执行计划	TableFullScan	IndexRangeScan + IndexLookUp

4.3 统计信息管理

-- 手动收集统计信息
ANALYZE TABLE orders;

-- 增量收集（适用于大表）
ANALYZE TABLE orders WITH 100000 SAMPLES;

-- 查看统计信息健康度
SELECT table_name,
       modify_count,
       row_count,
       stats_ver
FROM information_schema.table_stats;

4.4 SQL Rewrite 优化

-- 原始：OR 条件导致索引失效
SELECT * FROM orders
WHERE user_id = 10086 OR user_id = 10087;

-- 优化：使用 IN 替代 OR
SELECT * FROM orders
WHERE user_id IN (10086, 10087);

-- 原始：函数导致索引失效
SELECT * FROM orders
WHERE DATE(created_at) = '2024-01-15';

-- 优化：改写为范围查询
SELECT * FROM orders
WHERE created_at >= '2024-01-15 00:00:00'
  AND created_at < '2024-01-16 00:00:00';

五、TiFlash 加速

5.1 TiFlash 适用场景

场景	特征	推荐使用
聚合分析	GROUP BY / COUNT / SUM / AVG	是
大范围扫描	时间范围查询、全表聚合	是
多表关联	大表 JOIN 大表	是
实时报表	Dashboard 数据源	是
单行点查	主键/唯一索引查询	否（用 TiKV）
高频小事务	INSERT/UPDATE/DELETE	否（用 TiKV）

5.2 TiFlash 引擎选择

-- 通过 Hint 强制使用 TiFlash
SELECT /*+ read_from_storage(tiflash[t]) */
    category, SUM(amount), COUNT(*)
FROM orders
WHERE created_at >= '2024-01-01'
GROUP BY category;

-- 通过 CBO 自动选择（推荐）
-- TiDB 优化器根据成本自动判断是否使用 TiFlash
SET SESSION tidb_opt_use_tiflash_for_cte_store = ON;

5.3 TiFlash 调优

-- 调整 TiFlash 副本数
ALTER TABLE orders SET TIFLASH REPLICA 2;

-- 检查 TiFlash 同步状态
SELECT * FROM information_schema.tiflash_replica
WHERE table_name = 'orders';

-- 调整 TiFlash 引擎参数
SET GLOBAL tiflash_engine_max_bytes = 1073741824;
SET GLOBAL tiflash_engine_thread_count = 8;

六、FAQ

Q1：TiDB 慢查询日志对性能有影响吗？

TiDB 慢查询日志的记录开销极低（微秒级），对业务几乎无影响。建议保留慢查询日志功能，将阈值设置为业务 P99 延迟的 1.5-2 倍，避免产生过多噪音。

Q2：EXPLAIN ANALYZE 会真正执行 SQL 吗？

是的，`EXPLAIN ANALYZE` 会实际执行 SQL 并返回真实执行计划与耗时数据。在生产环境使用时需注意：1) 确认查询不会产生副作用（DML 操作）；2) 如果查询耗时很长，建议先用 `EXPLAIN` 查看预估计划。

Q3：TiFlash 数据同步有延迟吗？

TiFlash 通过 Raft Learner 异步接收数据写入，正常情况下同步延迟在秒级以内。可通过 `information_schema.tiflash_replica` 查看同步进度。对于要求强一致的场景，查询应使用 TiKV 行存。

Q4：索引过多会影响写入性能吗？

是的，每个索引在写入时都需要额外维护。建议：1) 单表索引不超过 5-6 个；2) 联合索引优先，减少索引总数；3) 定期检查无用索引（通过慢查询日志验证索引使用率）。

七、总结

数据库性能调优是一个持续迭代的过程，核心在于建立体系化的监控诊断能力：

全链路监控：从基础设施到 SQL 级别的完整可观测性
慢查询诊断：通过执行计划分析定位根因，精准优化
索引优化：遵循设计原则，用数据验证优化效果
TiFlash 加速：将分析负载从 OLTP 中分离，互不影响

八、下一步行动

试用 TiDB Cloud：在免费集群上体验 TiDB 的 HTAP 性能 → TiDB Cloud 免费试用
下载 TiDB 性能调优指南：获取完整的调优手册与最佳实践文档 → TiDB 性能调优概览
预约 DBA 专家咨询：获取针对您业务场景的调优建议 → 联系 PingCAP
加入 TiDB 社区：与全球 DBA 交流性能调优经验 → AskTUG 社区

数据库性能调优方案：TiDB 全链路监控/慢查询诊断/索引优化实战

摘要