TIDB集群,region含有较多peeding-peer,down-peer。求助如何解决
![]()
![]()
5个tidb节点: 20C64G
5个pd节点: 8C32G
22个tikv节点: 16C128G 3.2T nvme盘
TIDB集群,region含有较多peeding-peer,down-peer。求助如何解决
![]()
![]()
查看 Grafana → TiKV-details → Server → Raft Message Total Duration 和 Append Log Latency 。
Append Log Latency 毛刺很高,通常是网络抖动。gRPC 相关的网络监控,确认是否有流控(Flow Control)或连接断开另外,如果 IO 延迟过高,TiKV 无法及时响应 Raft Heartbeat,PD 会认为节点下线(Down Peer)
7.1.6的版本,没找到你说的2个监控项
display下,看下所有tikv的状态,是不是执行过缩容操作
问题找到了,有2台tikv之间通信有问题,修复了一下 ,只剩几百了
准备升级版本至7.5.7 有无建议
从提供的内容来看,看不出啥问题来,有报错日志信息吗
感谢,目前peending-peer、down-peer问题已经解决。 但是版本较低,准备升级至7.5.7了
未进行过缩容,只做过2次扩容。
ok,通信有问题那正常现象,目前使用7.5.4的版本比较稳定的,如果升级也可以考虑8.5,性能会更好
如果 IO 延迟过高,TiKV 无法及时响应 Raft Heartbeat,PD 会认为节点下线
对,这就是“心跳”的健康检查与容错机制
正好心跳和脑裂知识不大熟,看看有没有这方面的报错呢