博客 - 什么是数据库全局排序？TiDB 大数据量排序与窗口函数优化

摘要

排序是 SQL 查询中最耗费资源的操作之一。当数据量超过单机内存容量，数据库需要执行分布式全局排序。TiDB 通过内存排序、外部排序和分布式排序三层架构，结合窗口函数优化，实现大规模数据的高效排序处理。本文详解 TiDB 排序机制、窗口函数优化策略及最佳实践。

本文适合谁：数据库开发工程师、数据分析师、DBA，以及处理大规模排序查询的 TiDB 用户。

一、排序在数据库中的重要性

排序是 SQL 查询中不可或缺的操作，以下场景都涉及排序：

排序触发场景	SQL 语法	典型数据量
结果排序	`ORDER BY`	业务相关
去重聚合	`DISTINCT` / `GROUP BY`	中到大
窗口计算	`OVER (ORDER BY ...)`	中到大
合并连接	`Merge Join`	取决于表大小
子查询展开	`IN (SELECT ... ORDER BY ...)`	取决于子查询

排序的成本构成：

排序总成本 = CPU 排序计算 + 内存分配/释放 + 磁盘 I/O（溢出时）+ 网络传输（分布式时）

当排序数据量超过内存限制时，数据库需要将数据溢写到磁盘（External Sort），性能会出现数量级下降。在分布式数据库中，还涉及跨节点数据交换的网络开销。

二、TiDB 排序实现架构

2.1 三层排序机制

TiDB 的排序采用三层递进架构：

第一层：内存排序（In-Memory Sort）
  ↓ 数据量超过内存限制
第二层：外部排序（External Sort / Spill to Disk）
  ↓ 数据分布在多个 TiKV 节点
第三层：分布式排序（Distributed Sort）

内存排序

当排序数据量小于 `tidb_mem_quota_query` 配置值时，全部在内存中完成：

-- 查看当前排序内存限制（默认 1GB）
SHOW VARIABLES LIKE 'tidb_mem_quota_query';
-- +----------------------+------------+
-- | Variable_name        | Value      |
-- +----------------------+------------+
-- | tidb_mem_quota_query | 1073741824 |
-- +----------------------+------------+

内存排序的执行计划标识为 `Sort` 算子。

外部排序

当数据量超过内存配额时，TiDB 触发外部排序：

-- 调整排序内存配额（根据实际内存调整）
SET SESSION tidb_mem_quota_query = 4 * 1024 * 1024 * 1024;  -- 4GB

外部排序过程：

将数据分批在内存中排序
排序后的有序块（Run）写入临时文件
对多个有序块执行多路归并（K-way Merge）
输出最终有序结果

执行计划中，外部排序会额外显示 `Spill` 信息。

分布式排序

当排序数据分布在多个 TiKV 节点时，TiDB 通过以下步骤完成全局排序：

局部排序：每个 TiKV 节点对本地数据执行排序
数据交换：通过 Hash 分区将数据路由到目标节点
全局归并：协调节点对各分区有序数据执行最终归并

-- 通过 EXPLAIN ANALYZE 查看分布式排序执行计划
EXPLAIN ANALYZE
SELECT * FROM orders
ORDER BY create_time DESC
LIMIT 1000;

关键执行计划算子：

`TopN`：带 LIMIT 的排序，可利用堆排序提前终止
`Sort`：全量排序
`ExchangeReceiver` / `ExchangeSender`：分布式数据交换

2.2 排序算子对比

算子	适用场景	内存优化	提前终止
`TopN`	`ORDER BY ... LIMIT N`	堆排序，仅需 N 行内存	支持
`Sort`	全量排序	归并排序	不支持
`MergeJoin`	有序输入合并	流式处理	视情况

关键优化：当查询包含 `LIMIT` 时，TiDB 优化器会优先选择 `TopN` 算子，将排序内存需求从 O(n) 降低到 O(n)（但实际只需维护大小为 N 的堆），大幅减少内存消耗。

三、窗口函数与排序优化

3.1 窗口函数的排序依赖

所有窗口函数都依赖底层排序操作：

-- ROW_NUMBER：按金额降序排列
SELECT
  order_id,
  customer_id,
  amount,
  ROW_NUMBER() OVER (ORDER BY amount DESC) AS rank
FROM orders;

-- 累计求和：按日期排序后逐行累加
SELECT
  date,
  revenue,
  SUM(revenue) OVER (ORDER BY date) AS cumulative_revenue
FROM daily_sales;

-- 窗口函数 + 分区排序
SELECT
  department,
  employee_name,
  salary,
  RANK() OVER (PARTITION BY department ORDER BY salary DESC) AS dept_rank
FROM employees;

3.2 TiDB 窗口函数优化策略

并行计算优化：

-- 确保窗口函数并行度
SET SESSION tidb_max_parallelism = 8;

-- 查看并行执行计划
EXPLAIN ANALYZE
SELECT
  department,
  employee_name,
  salary,
  RANK() OVER (PARTITION BY department ORDER BY salary DESC) AS dept_rank
FROM employees;

减少排序数据量：

-- 优化前：全表排序
SELECT order_id, amount, ROW_NUMBER() OVER (ORDER BY amount DESC) AS rn
FROM orders;

-- 优化后：先过滤再排序
SELECT order_id, amount, ROW_NUMBER() OVER (ORDER BY amount DESC) AS rn
FROM orders
WHERE create_time >= '2025-01-01';

利用索引避免排序：

-- 创建覆盖索引，避免 WindowSort
CREATE INDEX idx_amount ON orders (amount DESC)
INCLUDE (order_id);

-- 优化器可能直接使用索引有序性，跳过排序步骤
EXPLAIN SELECT order_id, amount FROM orders ORDER BY amount DESC LIMIT 100;

四、大数据量排序最佳实践

4.1 内存管理

-- 根据集群内存调整排序内存配额
-- 建议为单个查询分配的排序内存不超过节点总内存的 25%
SET SESSION tidb_mem_quota_query = 8 * 1024 * 1024 * 1024;  -- 8GB（64GB 节点）

-- 开启外部排序（TiDB 默认开启）
SET SESSION tidb_enable_tmp_storage_on_memory_overflow = ON;

4.2 分页优化

-- 避免：深度分页（偏移量大）
SELECT * FROM orders ORDER BY id LIMIT 1000000, 100;

-- 推荐：游标分页
SELECT * FROM orders
WHERE id > 1000000
ORDER BY id LIMIT 100;

4.3 TopN 查询优化

-- 利用 TopN 算子的提前终止能力
SELECT * FROM orders
ORDER BY create_time DESC
LIMIT 100;

-- 配合分区裁剪减少排序数据量
SELECT * FROM orders
WHERE create_time >= '2025-06-01'
ORDER BY create_time DESC
LIMIT 100;

4.4 复杂排序的分步处理

-- 优化前：一次性排序全部数据
SELECT * FROM (
  SELECT *, ROW_NUMBER() OVER (PARTITION BY category ORDER BY score DESC) AS rn
  FROM products
) t WHERE rn <= 10;

-- 优化后：利用 TopN + Window 的组合优化
-- TiDB 优化器在某些场景下会自动合并 TopN 和 Window 算子

五、排序性能对比：TiDB vs MySQL

指标	MySQL 8.0	TiDB 7.x
单机排序（100 万行）	~2s	~1.8s
排序数据量上限	受单机内存限制	理论无上限（分布式溢出）
并行排序	单线程	MPP 并行（TiFlash）
窗口函数	基础支持	并行窗口函数
深度分页性能	随 offset 线性下降	分布式 TopN 优化

核心差异：MySQL 的排序受限于单机资源，当数据量超过内存时性能急剧下降；TiDB 通过分布式排序和 TiFlash MPP 引擎，可以线性扩展排序能力。

FAQ

Q1：TiDB 的分布式排序是否有网络瓶颈？ 在万兆网络环境下，网络带宽通常不是瓶颈。排序的主要开销在 CPU 计算和磁盘 I/O。建议同机房部署，减少网络延迟。

Q2：如何判断排序是否触发了外部溢写？ 通过 `EXPLAIN ANALYZE` 的输出查看，如果看到 `operator info` 中包含 `Spill` 相关信息，说明触发了外部排序。也可以查看 `information_schema statements_summary` 中的内存使用统计。

Q3：窗口函数能否利用索引加速？ 可以。如果 `ORDER BY` 列有合适的索引，且窗口函数的分区和排序与索引顺序一致，TiDB 可以利用索引有序性减少排序开销。

Q4：排序内存溢出时 TiDB 会报错吗？ TiDB 7.x 默认开启 `tidb_enable_tmp_storage_on_memory_overflow`，溢出时会自动使用磁盘临时存储，不会直接报错。但在极少数情况下（如磁盘空间不足），会返回错误。

总结

排序是数据库性能的关键瓶颈之一。TiDB 通过内存排序、外部排序、分布式排序三层架构，实现了从 KB 到 PB 级别的排序能力。结合 TopN 优化、窗口函数并行计算和索引辅助排序，TiDB 在大规模数据排序场景下展现出显著优势。开发者应关注排序内存配置、分页策略和窗口函数写法，充分发挥 TiDB 的排序能力。

下一步行动

试用 TiDB：TiDB 免费试用 — 体验分布式排序性能
下载排序优化指南：TiDB 性能调优指南 — 获取排序与窗口函数调优方法
技术支持：加入 TiDB 社区 — 与工程师交流排序优化经验

什么是数据库全局排序？TiDB 大数据量排序与窗口函数优化

摘要