PD集群瘫痪，疑似 etcd 性能劣化无法提供 TSO

异乡的大人 · 2026 年1 月 4 日 01:26

看着像是PD 节点（非 SSD）与 Kafka 共享磁盘导致 I/O 资源抢占，etcd WAL 刷盘延迟过高，引发 leader 选举失败、TSO 服务中断，最终导致 TiDB 集群链路中断

异乡的大人 · 2026 年1 月 4 日 01:26

可以先试试停止 PD 节点上的 Kafka 服务，重启 PD 集群恢复 TSO 服务

异乡的大人 · 2026 年1 月 4 日 01:27

后面有机会的话可以试试PD 节点单独部署 + 更换 SSD 磁盘，优化 etcd/PD 参数，Flink CDC 同步限流，强化资源监控

Royce1220 · 2026 年2 月 28 日 01:35

看起来是自愿争抢导致的