看到有日志输出找了一个有提示reion_id和和ledaerID信息的查了一下 信息完全正常。
第一个error是昨天下午3点开始
但是看状态他是有在正常同步吧。先这个值有在一直增加
cdc cli changefeed query 看下完整的cdc配置,发出来看看
下游是 kafka 吗?kafka 的版本是多少?
看一下tidb 有没有频繁 ddl 操作:tidb cdc 实测对于ddl 操作处理极慢。对应的的现象,我猜测一下,ddl 操作导致 tidb cdc 变慢,同时 ddl 操作也会导致 cpu 上升,变慢了,你停下来了,然后ddl 操作完成,你启动了ticdc ,速度变快了,循环往复
也可以考虑下:可能是部分热点region导致cdc延迟,你可以看下能不能先把热点打散下
中间好像是有过DDL操作。有两三次建表重建表相关。这是测试环境。没有什么数据,应该也不会有什么热点数据吧
下游ticdc 只有一个topic和一个分区。
最早的一个报错,说是没有更新pd ledaer 获取leader失败。
[2025/06/25 15:07:37.848 +08:00] [ERROR] [base_client.go:130] [“[pd] failed updateLeader”] [error=“failed to get leader from [http://172.16.2.31:2379]”] [errorVerbose=“failed to get leader from [http://172.16.2.31:2379]\ngithub.com/pingcap/pd/v4/client.(*baseClient).updateLeader\n\tgithub.com/pingcap/pd/v4@v4.0.0-rc.1.0.20200514084115-8deb1ee53349/client/base_client.go:198\ngithub.com/pingcap/pd/v4/client.(*baseClient).leaderLoop\n\tgithub.com/pingcap/pd/v4@v4.0.0-rc.1.0.20200514084115-8deb1ee53349/client/base_client.go:129\nruntime.goexit\n\truntime/asm_amd64.s:1357”]
从日志看,主要表现为找不到某些Region的Leader或者Region不存在。这通常与TiKV集群的状态有关,可能是由于网络问题、节点故障或Region Leader选举等问题导致的。
这都是阿里云之间的内网,网络没问题,也没有故障,提示找的leader不存在,手动去查询都存在,都是正常的。现在不确定是不是因为DDL导致,但是DDL也不会导致说PD ledader找不到
如果是 ticdc 的问题的话,高版本解决了,测试环境的话,建议升级或者新部署 v8.5.2 的版本试一下,问题应该都解决了。
生产也是低版本,就算升级也要用cdc呢
此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。