tidb没有任何业务,ticdc突然就卡住了

这是pd这段时间的日志:
logs_pd.zip (38.1 KB)

麻烦看下pd的系统监控 cpu 内存 磁盘io。pd是否部署在SSD上?

没问题,是部署在ssd上

看下io


看日志 pd hearbeat 负载高导致的,请检查一个io,以及网络情况

pd主节点网络流量情况:

pd从节点网络流量情况:

4000Mbits网络带宽

看起来没什么问题,但是从日志上看就是由于这个原因导致的,CDC. io,网络也看下。

三个ticdc节点都差不多:

OS的版本是什么

CentOS Linux release 7.8.2003 (Core)

上图发的是pd leader的io吗

哪个图?

pd主节点io:

pd从节点io:两个从节点差不多

你这pd所在主机的IO latency还是挺高的 avg能达到14ms
1)pd主机负载如何 ?
2)你这个是物理机器还是云主机?

物理机

pd没什么负载

主要问题是在tidb没有业务情况下,grafana显示ticdc owner丢失,然后checkpoint也不前进了,ticdc日志也没有任何报错,直到重启ticdc之后才恢复了

io用的什么调度策略?

deadline

推荐noop ,修改后,观察下

好的ok

又出现了,就无缘无故的延迟,这次owner还在



ticdc监控:
TiCDC_2022-03-11T07_45_30.287Z.json (3.2 MB)

ticdc日志:
bi数据库.zip (69.6 KB)

Changefeed checkpoint catch-up ETA,这个指标代表什么意思,为什么突然就这么大了?