扩容tiflash中,报错invalid store ID 2431118120, not found

【TiDB 使用环境】生产环境
【TiDB 版本】7.5.4
【操作系统】
【部署方式】云上部署(什么云)/机器部署(什么机器配置、什么硬盘)
【集群数据量】
【集群节点数】
store ID 2431118120 这个ID是去年已经缩容过掉的,今天扩容一台tiflash时,报错这个老的tiflash节点ID找不到了。是同一个IP地址,感觉好像是PD注册的地址中还残留着老的store ID,这种怎么解决呀

[raft_client.rs:826] [“resolve store address failed”] [err_code=KV:Unknown] [err=“Other("[src/server/resolve.rs:100]: unknown error \"[components/pd_client/src/util.rs:926]: invalid store ID 2431118120, not found\"")”] [store_id=2431118120]

1 个赞

缩容后,集群重启或者reload过吗?

1 个赞

集群没有重启过。需要重启整个集群?

1 个赞

这种应该不影响使用吧,就是pd中老节点的信息没有刷新

1 个赞

对,没有影响使用,但是日志一直刷还是ERROR级别的。

1 个赞

麻烦问一下,怎么可以怎么触发刷新一下吗?我这边扩容缩容挺频繁的。

1 个赞

重启试试?

1 个赞

重启PD的follower节点能解决吗

1 个赞

应该不行,因为pd之间是通过Raft协议保持集群元数据一致性的。单个PD节点重启后,它会从其他PD节点同步最新的集群状态。
或者你可以通过pdctl store看下集群还有没有老节点,有的话 store delete <store_id> 命令清理下试下

1 个赞

用pd-ctl手动删除残留的无效store,再重试扩容应该就可以了。能否删除结合你们实际生产情况来判断。

1 个赞

看上去像是store里面有损坏的数据块或者kv对吗

对, 应该是 元数据残留 :在执行缩容操作时,可能由于某些原因,该 TiFlash 节点的元数据信息没有从 PD 中完全清除

最好备份一下再处理