tidb性能问题排查- DM同步延迟

一个好的问题描述有利于社区小伙伴更快帮你定位到问题,高效解决你的问题

【TiDB 使用环境】生产环境
【TiDB 版本】社区版 v7.5.4
【部署方式】阿里云ecs部署
【操作系统/CPU 架构/芯片详情】
【机器部署详情】16c/64G
【集群数据量】 数据量5T多一点
【集群节点数】 4-4-4
【问题复现路径】无
【遇到的问题:问题现象及影响】 DM同步延迟
【其他附件:截图/日志/监控】
tidb overview

tikv cpu

tikv io

raft io


raft propose

补充信息:
当前dm worker进程所在服务器cpu使用率均很低

问题:
1、当前判断是tidb的消费瓶颈,导致dm出现延迟,但是从目前监控看,能看出当前瓶颈是io吗?虽然io util 100%,但是当前磁盘是nvme ssd,不能代表磁盘到瓶颈了,且磁盘吞吐量才100M多一点。 raft 日志写的单位不清楚,不知道是不是社区版的缘故,跟标准版的不一样。
2、tikv层面该时间段均没有如server is buys,或者write stall等信息,只要个位数的drop leader,但是仍然无法证明整个tidb的卡住了。

通过 Grafana 深入拆解 TiKV 写入全链路的各阶段延迟(尤其是 Scheduler latch wait 和 Raft apply 阶段),并结合 Top SQL 或 Key Visualizer 确认是否存在数据热点,

瓶颈确实出在 TiKV 层,且和 IO 直接相关

性能问题建议先看 TiDB Dashboard 的 Top SQL 和慢查询,定位瓶颈在哪一层。常见原因有:热点 Region 没有打散、执行计划不准(analyze table)、或者 TiKV 的 RocksDB 参数没调。