看着像是PD 节点(非 SSD)与 Kafka 共享磁盘导致 I/O 资源抢占,etcd WAL 刷盘延迟过高,引发 leader 选举失败、TSO 服务中断,最终导致 TiDB 集群链路中断
可以先试试停止 PD 节点上的 Kafka 服务,重启 PD 集群恢复 TSO 服务
后面有机会的话可以试试PD 节点单独部署 + 更换 SSD 磁盘,优化 etcd/PD 参数,Flink CDC 同步限流,强化资源监控
看起来是自愿争抢导致的
看着像是PD 节点(非 SSD)与 Kafka 共享磁盘导致 I/O 资源抢占,etcd WAL 刷盘延迟过高,引发 leader 选举失败、TSO 服务中断,最终导致 TiDB 集群链路中断
可以先试试停止 PD 节点上的 Kafka 服务,重启 PD 集群恢复 TSO 服务
后面有机会的话可以试试PD 节点单独部署 + 更换 SSD 磁盘,优化 etcd/PD 参数,Flink CDC 同步限流,强化资源监控
看起来是自愿争抢导致的