TIDB集群,region含有较多peeding-peer,down-peer。求助如何解决

TIDB集群,region含有较多peeding-peer,down-peer。求助如何解决
image
image


5个tidb节点: 20C64G
5个pd节点: 8C32G
22个tikv节点: 16C128G 3.2T nvme盘

1 个赞

查看 Grafana → TiKV-details → Server → Raft Message Total DurationAppend Log Latency

  • 如果 Append Log Latency 毛刺很高,通常是网络抖动。
  • 检查 gRPC 相关的网络监控,确认是否有流控(Flow Control)或连接断开

另外,如果 IO 延迟过高,TiKV 无法及时响应 Raft Heartbeat,PD 会认为节点下线(Down Peer)

2 个赞

7.1.6的版本,没找到你说的2个监控项

display下,看下所有tikv的状态,是不是执行过缩容操作

问题找到了,有2台tikv之间通信有问题,修复了一下 ,只剩几百了
准备升级版本至7.5.7 有无建议

2 个赞

从提供的内容来看,看不出啥问题来,有报错日志信息吗

感谢,目前peending-peer、down-peer问题已经解决。 但是版本较低,准备升级至7.5.7了

未进行过缩容,只做过2次扩容。

ok,通信有问题那正常现象,目前使用7.5.4的版本比较稳定的,如果升级也可以考虑8.5,性能会更好

如果 IO 延迟过高,TiKV 无法及时响应 Raft Heartbeat,PD 会认为节点下线

对,这就是“心跳”的健康检查与容错机制

可以参考这里进行平滑升级
https://docs.pingcap.com/zh/tidb/v7.5/smooth-upgrade-tidb/#平滑升级-tidb

正好心跳和脑裂知识不大熟,看看有没有这方面的报错呢