【TiDBer 唠嗑茶话会 184】分享你最近一次/印象最深的运维 TiDB 时的误操作,最后是怎么解决的?

印象最深的TiDB误操作:误删PD节点导致集群短暂不可用

事件经过
执行PD缩容时,误将最后一个PD节点下线(未保留旧节点),导致TiKV无法访问PD获取元信息,集群查询超时,业务请求失败约10分钟。

原因
未遵循“缩容PD时保留至少一个旧节点”的规范,且未检查TiKV缓存的PD列表状态。

恢复
紧急重启PD服务并手动指定新Leader,恢复后升级集群版本启用自动PD节点更新机制。

教训
操作前必须核对节点状态,缩容需分步验证,避免集中下线关键组件。