TIKV写节点偶发性CPU暴涨到600-800%

TiDBer_0iczhhg9 · 2026 年4 月 2 日 06:36

一个好的问题描述有利于社区小伙伴更快帮你定位到问题，高效解决你的问题

【TiDB 使用环境】生产环境
【TiDB 版本】8.1.0
【部署方式】云上部署腾讯云
【操作系统/CPU 架构/芯片详情】
【机器部署详情】16C32G
【集群数据量】
【集群节点数】pd3节点，db5节点，kv3节点
【问题复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
TIKV-SERVER的三个节点均出现在短时间内CPU暴涨超过800%，主要单表数据量在3亿左右，按日分区，日均数据量大概在300万以内，region现在是8530个，每个region小于10M，慢查询sql也看了不多，也处理了，还是会这样，这是grafana的截图：

请教下怎么排查问题，TIDB新手，接手上一任的工作，之前没用过

yg_2024 · 2026 年4 月 2 日 08:00

这块的cpu使用率800%，指的是用了8核，如果服务器是32核，那么实际的cpu使用率相当于是top里的25%，其实资源还有很大富余量。

TiDBer_0iczhhg9 · 2026 年4 月 2 日 08:06

感谢回答。问题解决了，是因为一个slow query导致的阻塞（错误的用了like导致未走索引，查询一次需要20S左右），不是AI说的region个数的问题，但是我比较奇怪的是这个版本发布已经有10来天了，直到今天才爆出问题，是表示这个sql本身的慢查询并不是直接致命，而是慢慢堆起来的结果吗，因为我看了下这个slow query有10000多个了

yg_2024 · 2026 年4 月 2 日 08:50

慢SQL堆积是会导致资源越用越多。

TiDBer_0iczhhg9 · 2026 年4 月 2 日 09:20

嗯嗯好的

Royce1220 · 2026 年4 月 2 日 09:33

其实也要看业务的情况，如果使用的多，sql执行的次数多，每次执行都很慢，可能就慢慢堆积了

菩提老祖 · 2026 年4 月 2 日 09:55

CPU暴涨，内存没有影响吗？

TiDBer_0iczhhg9 · 2026 年4 月 2 日 10:46

嗯嗯，是的，应该就是慢慢堆积的

TiDBer_0iczhhg9 · 2026 年4 月 2 日 10:47

没有，内存比较平稳

Billmay表妹 · 2026 年4 月 2 日 11:33

你是不是混部了？
这种看上去很像和某个组件互相影响~
进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

koby · 2026 年4 月 2 日 13:28

我也刚刚遇到这个情况，不过我的是偶发，也没看到有slow sql

独善其身 · 2026 年4 月 3 日 01:32

嗯,能查出慢SQL说明问题很典型啊

纯白镇的小智 · 2026 年4 月 3 日 02:39

调大 Region 分裂阈值试试

TiDBer_0iczhhg9 · 2026 年4 月 3 日 03:52

确实是混布的，一共5台机器，其中三台pd、db、kv都布了，另外两台布了db
dashboard这个交接给我的人说没开

TiDBer_0iczhhg9 · 2026 年4 月 3 日 03:59

现在跑了10个月左右，现在数据量大概23亿，也就4G左右，但是我看region已经有15K了，我不知道这个是不是正常，昨天AI有给出修改region分裂的阈值，但是没敢操作，请问这个影响很大吗

system · 2026 年4 月 10 日 04:00

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。