一、背景

某用户在 TiDB 4.0 集群遇到点查抖动的 CASE，需要设置 tikv-client.max-batch-size: 0，关闭 Batch Client 特性，避免触发 gRPC 饥饿问题。

二、分析

客户端发一个请求，服务端处理完立刻返回一个响应。

Batch Client 基于「双向流式」模式：TiDB client 和 TiKV 每次保持一个长期的 bidi‑stream，复用同一条连接来收发批量命令。

在高并发场景下，TiDB → TiKV 的 gRPC 调用请求非常频繁。
每发一次 RPC，TiKV 都要调度一个线程去处理网络、反序列化、调度业务逻辑，CPU 开销不小。
Batch Client 就是在 TiDB 端把多条小命令（Command）先积累起来，一次性打包（batch）成一个 gRPC 消息发给 TiKV，减少 RPC 次数，从而降低 TiKV gRPC 线程的 CPU 使用率。

step1: 请求入队 TiDB 收到一条新的 KV 请求，先放到本地的「待发送队列」中。

step2: 检查批量大小

step3: 检查等待策略是否启用

step4: 判断 TiKV gRPC CPU 负载 查询关联 TiKV 实例的 gRPC 线程池 CPU 利用率：

step5: 等待收集更多请求 在 max-batch-wait-time（如 50 ms）内：

step6: 完成一次批量发送 清空已发送的请求，队列里剩余请求重新从步骤 2 开始判断。

关闭 Batch Client 将 max-batch-size 设为 0 时，上面所有“打包发送”逻辑都不生效，TiDB 收到新请求就立刻做一次简单 RPC，保证最低延迟，但也带来更多的 gRPC 调度开销。

饥饿原因： TiKV 的 gRPC 实现对每个双向流（stream）采取“贪婪处理”策略：只要某条流还有数据就一直跑这个流，不去切换到其他流上。
后果：当某些流持续发包，其他流就一直拿不到 CPU，造成延迟抖动。
解决思路：关闭 Batch Client（即 max‑batch‑size=0），让每条请求都走简单模式 RPC：
- 每个 SQL 操作都会新建或复用一个短连接（goroutine 并行处理），不会因为一个长流占用线程池而饿死其他流。
- 请求不再打包，虽然 RPC 次数增多，但单条请求的延迟更可控、抖动更小。
- 适合对延迟敏感、并发流模式复杂的场景。

这个问题并不算 issue，这是 gRPC 能力上的不足。gRPC 暂不支持 preemptive scheduling 和 work stealing。如果一个大任务长期占用一个 gRPC 线程，就会使得这个线程的等待队列上的其他小任务延时增加。

高吞吐更重要、对 CPU 开销敏感的集群 → 打开 Batch Client（默认128）。

低延迟更重要的集群 → 关闭 Batch Client（max‑batch‑size=0），回到 Simple RPC。