huixiang
(huixiang)
1
【 TiDB 使用环境】生产环境
【 TiDB 版本】5.1.4
【遇到的问题:问题现象及影响】
TICDC 同步异常checkpoint不前进,但是list时state: normal,在cdc日志中有ErrEventFeedEventError出错。
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
-
TICDC 同步checkpoint不前进,但是list时state: normal
cdc cli changefeed list --pd=http://xx:2379
2)cdc日志中有ErrEventFeedEventError出错
-
监控图
huixiang
(huixiang)
2
Ticdc中日志信息:
[2025/01/26 02:19:24.727 +08:00] [INFO] [region_worker.go:243] [“single region event feed disconnected”] [changefeed=auto-order] [regionID=277934170] [requestID=23125] [span=“[748000000000005aff295f72800000001aff87d4b60000000000fa, 748000000000005aff295f72800000001aff8b0dc80000000000fa)”] [checkpoint=455561488452550726] [error="[CDC:ErrEventFeedEventError]not_leader:<region_id:277934170 > "]
[2025/01/26 02:19:24.727 +08:00] [INFO] [region_range_lock.go:383] [“unlocked range”] [changefeed=auto-order] [lockID=323] [regionID=277934170] [startKey=748000000000005aff295f72800000001aff87d4b60000000000fa] [endKey=748000000000005aff295f72800000001aff8b0dc80000000000fa] [checkpointTs=455561488452550726]
这种not_leader的错误很正常,你试试pause一下,然后再恢复,老版本cdc有很多bug,联系尽快升级至7.1.3版本,或者这个版本发布时间以后发布的版本
Jasper
(Jasper)
4
not leader 有可能是由于集群中的 region 调度导致的,并不会直接导致 cdc 卡住, 看监控是延迟了一小时左右恢复的,是人工干预了还是自己恢复的?