印象最深的TiDB误操作:误删PD节点导致集群短暂不可用
事件经过:
执行PD缩容时,误将最后一个PD节点下线(未保留旧节点),导致TiKV无法访问PD获取元信息,集群查询超时,业务请求失败约10分钟。
原因:
未遵循“缩容PD时保留至少一个旧节点”的规范,且未检查TiKV缓存的PD列表状态。
恢复:
紧急重启PD服务并手动指定新Leader,恢复后升级集群版本启用自动PD节点更新机制。
教训:
操作前必须核对节点状态,缩容需分步验证,避免集中下线关键组件。
印象最深的TiDB误操作:误删PD节点导致集群短暂不可用
事件经过:
执行PD缩容时,误将最后一个PD节点下线(未保留旧节点),导致TiKV无法访问PD获取元信息,集群查询超时,业务请求失败约10分钟。
原因:
未遵循“缩容PD时保留至少一个旧节点”的规范,且未检查TiKV缓存的PD列表状态。
恢复:
紧急重启PD服务并手动指定新Leader,恢复后升级集群版本启用自动PD节点更新机制。
教训:
操作前必须核对节点状态,缩容需分步验证,避免集中下线关键组件。