CDC同步日志看到有ERROR找不到regionid的leader

舞动梦灵 · 2025 年6 月 26 日 02:20

看到有日志输出找了一个有提示reion_id和和ledaerID信息的查了一下信息完全正常。

第一个error是昨天下午3点开始

但是看状态他是有在正常同步吧。先这个值有在一直增加

Billmay表妹 · 2025 年6 月 26 日 06:32

cdc cli changefeed query 看下完整的cdc配置，发出来看看

Billmay表妹 · 2025 年6 月 26 日 06:34

下游是 kafka 吗？kafka 的版本是多少？

看一下tidb 有没有频繁 ddl 操作：tidb cdc 实测对于ddl 操作处理极慢。对应的的现象，我猜测一下，ddl 操作导致 tidb cdc 变慢，同时 ddl 操作也会导致 cpu 上升，变慢了，你停下来了，然后ddl 操作完成，你启动了ticdc ，速度变快了，循环往复

也可以考虑下：可能是部分热点region导致cdc延迟，你可以看下能不能先把热点打散下

舞动梦灵 · 2025 年6 月 26 日 06:56

kafka版本是2.6.2
命令：
tiup cdc:v4.0.0 cli changefeed create
–pd=http://172.16.2.31:2379
–sink-uri=“kafka://alikafka-post-cn-fzh4bixgg002-1-vpc.alikafka.aliyuncs.com:9092/tidbcdc?kafka-version=2.6.2&partition-num=1&max-message-bytes=10485760&replication-factor=1”

中间好像是有过DDL操作。有两三次建表重建表相关。这是测试环境。没有什么数据，应该也不会有什么热点数据吧
下游ticdc 只有一个topic和一个分区。

舞动梦灵 · 2025 年6 月 26 日 07:45

最早的一个报错，说是没有更新pd ledaer 获取leader失败。
[2025/06/25 15:07:37.848 +08:00] [ERROR] [base_client.go:130] [“[pd] failed updateLeader”] [error=“failed to get leader from [http://172.16.2.31:2379]”] [errorVerbose=“failed to get leader from [http://172.16.2.31:2379]\ngithub.com/pingcap/pd/v4/client.(*baseClient).updateLeader\n\tgithub.com/pingcap/pd/v4@v4.0.0-rc.1.0.20200514084115-8deb1ee53349/client/base_client.go:198\ngithub.com/pingcap/pd/v4/client.(*baseClient).leaderLoop\n\tgithub.com/pingcap/pd/v4@v4.0.0-rc.1.0.20200514084115-8deb1ee53349/client/base_client.go:129\nruntime.goexit\n\truntime/asm_amd64.s:1357”]

lllzd · 2025 年6 月 27 日 03:47

从日志看，主要表现为找不到某些Region的Leader或者Region不存在。这通常与TiKV集群的状态有关，可能是由于网络问题、节点故障或Region Leader选举等问题导致的。

舞动梦灵 · 2025 年6 月 27 日 05:03

这都是阿里云之间的内网，网络没问题，也没有故障，提示找的leader不存在，手动去查询都存在，都是正常的。现在不确定是不是因为DDL导致，但是DDL也不会导致说PD ledader找不到

Billmay表妹 · 2025 年6 月 27 日 10:16

如果是 ticdc 的问题的话，高版本解决了，测试环境的话，建议升级或者新部署 v8.5.2 的版本试一下，问题应该都解决了。

舞动梦灵 · 2025 年6 月 28 日 01:34

生产也是低版本，就算升级也要用cdc呢

system · 2025 年7 月 5 日 01:34

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。