【TiDBer 唠嗑茶话会 184】分享你最近一次/印象最深的运维 TiDB 时的误操作,最后是怎么解决的?

:rofl: 在 TiDB 日常运维工作中,也许也会有一些误操作导致集群出现问题,本期唠嗑茶话会,一起来分享你最近一次/印象最深的运维 TiDB 时的误操作,最后是怎么解决的?分享实用的避坑 tips,帮助大家在后续运维工作中少走弯路、更高效地用好 TiDB~

本期话题

【最近一次/印象最深的运维 TiDB 时的误操作】

【最后是怎么解决的】

【给小伙伴们一些避坑建议吧~】

参与奖励

留言参与讨论,获得 50 积分 & 经验值!

活动时间

2025.10.9 - 2025.10.17

【最近一次/印象最深的运维 TiDB 时的误操作】
误删 .tiup 文件夹

【最后是怎么解决的】
参考帖子 tiup工具如果丢失后有重塑的方案么?

【给小伙伴们一些避坑建议吧~】
备份吧,一定要备份。

config.yaml中使用了默认配置文件

应该进行实际调整,同时修改前备份文件

【最近一次/印象最深的运维 TiDB 时的误操作】
删除pd数据文件
【最后是怎么解决的】
参考官方文档重建pd
【给小伙伴们一些避坑建议吧~】
严谨、严谨、一定要严谨

【最近一次/印象最深的运维 TiDB 时的误操作】
join查询报错,调整了tidb_max_chunk_size,导致所有join查询都变慢

【最后是怎么解决的】
改回默认值1024

【给小伙伴们一些避坑建议吧~】
这个参数不要轻易调整

【最近一次/印象最深的运维 TiDB 时的误操作】
误删除生产数据
有用户在执行 DROP DATABASE时误删除了关键业务数据库,导致业务中断
【最后是怎么解决的】
立即调整 tidb_gc_life_time 延长至 48 小时,通过 tidb_snapshot查询历史数据并导出恢复, 使用 FLASHBACK DATABASE直接回滚误删操作(需 GC 未过期)
【给小伙伴们一些避坑建议吧~】
生产环境设置 tidb_gc_life_time ≥ 24 小时,为误操作留恢复窗口

【最近一次/印象最深的运维 TiDB 时的误操作】
删除pd文件
【最后是怎么解决的】
参考官方文档
【给小伙伴们一些避坑建议吧~】
谨慎操作

【最近一次/印象最深的运维 TiDB 时的误操作】
业务高峰期手滑改了大表的索引,结果集群CPU飙升,慢查询炸了。

【最后是怎么解决的】
1.赶紧用 ADMIN CANCEL DDL JOBS 取消变更。
2.临时降级业务流量,半夜再用工具重新搞索引。
3.盯着监控直到指标恢复正常。

【给小伙伴们一些避坑建议吧~】
1.改表前先备份,避开业务高峰!
2.高危操作开二次审批,别用高权限账号瞎浪!
3.监控大屏必须挂墙上,变更多瞅两眼!
5.测试环境定期练手,误删误操作也能秒恢复

1 个赞

【最近一次/印象最深的运维 TiDB 时的误操作】
误删测试数据
【最后是怎么解决的】
重新生成测试数据,并重新导入
【给小伙伴们一些避坑建议吧~】
误操作后的恢复工作很浪费时间,一定要记得备份

rm -rf .

2 个赞

【最近一次/印象最深的运维 TiDB 时的误操作】
误删测试环境 TiDB 表数据

【最后是怎么解决的】
用 TiDB Flashback 功能恢复误删数据

【给小伙伴们一些避坑建议吧~】
操作前备份,高危操作加审批和复核

【最近一次/印象最深的运维 TiDB 时的误操作】误删除数据

【最后是怎么解决的】 Flashback 功能恢复误删数据

【给小伙伴们一些避坑建议吧~】能带事务带事务,勤备份,包含数据和配置;最好是一人操作一人审核,慢就是快

【最近一次/印象最深的运维 TiDB 时的误操作】
删除了TIKV的数据文件

【最后是怎么解决的】
用备份还原

【给小伙伴们一些避坑建议吧~】
备份恢复

【最近一次/印象最深的运维 TiDB 时的误操作】
误删测试数据
【最后是怎么解决的】
使用备份还原
【给小伙伴们一些避坑建议吧~】
定期备份数据

【最近一次/印象最深的运维 TiDB 时的误操作】
之前遇到tikv的一个bug,需要重启tikv节点,使用的是tiup cluster restart xxx -R tikv, 结果这个是先stop所有节点再start所有节点,影响了业务访问。该集群每个tikv有20w左右的region,接近20个tikv,写流量很高,start之后访问流量跌了接近一半

【最后是怎么解决的】
关闭了整个集群,按照pd->tikv->tidb的顺序启动之后恢复的,处理花了差不多1个小时
【给小伙伴们一些避坑建议吧~】
–node指定tikv节点来重启

【最近一次/印象最深的运维 TiDB 时的误操作】
没咋用过TiDB,基本都是MySQL、PG。一般都是误删数据,或者误删表。
【最后是怎么解决的】
用库表恢复,自建环境自己写的备份库表结构,加上binlog,wallog增量恢复到具体时间点,不同情况还真很难说能够完全恢复。
【给小伙伴们一些避坑建议吧~】
备份,一定要备份,还有权限控制,能上审计系统的最好有审计系统。

【最近一次/印象最深的运维 TiDB 时的误操作】
删除pd数据文件
【最后是怎么解决的】
参考官方文档重建pd
【给小伙伴们一些避坑建议吧~】
严谨、严谨、一定要严谨

1 个赞

【最近一次/印象最深的运维 TiDB 时的误操作】
误删除安装目录

【最后是怎么解决的】
百度+官网论坛
【给小伙伴们一些避坑建议吧~】
备份