【TiDBer 唠嗑茶话会 194】AI + TEM 智能运维，假如你来开发！你会怎么样做？

MrSylar · 2026 年3 月 6 日 02:19

问题 1 TiDB 集群故障时，我最希望 TEM AI 智能运维能帮助解决这些具体问题：
1）自动根因定位：不用人工翻日志、查监控，直接告诉我是 PD / TiKV / TiDB Server 哪一层出问题，是网络、磁盘、锁冲突、热点还是资源瓶颈。
2）故障自动止损：例如自动切流量、隔离异常节点、自动重启异常组件，避免业务雪崩。
3）恢复建议：给出可执行的恢复步骤
4）跨组件关联分析：把监控、日志、慢查询、调用链自动关联，自动画出故障传播链。
5）减少误告警：AI 自动过滤噪音告警，只报真正影响业务的问题。
问题 2 慢查询方面，我希望 TEM AI 提供具体分析 + 优化能力：
1）自动识别慢查询：自动抓取、归类、打分，标出最影响业务的 Top 慢 SQL。
2) AI 自动分析原因：

是否没走索引
是否大表全表扫
是否数据倾斜 / 热点
是否 TiDB 优化器选错索引
是否事务过大、锁等待
给出可直接执行的优化建议：
建议加什么索引
建议改写 SQL
建议调整会话变量 / 统计信息
预测慢查询：提前发现即将变慢的 SQL，提前优化。
慢查询影响面分析：自动告诉哪些接口、哪些业务在调用，影响多大。
问题 3日常运维中，我最希望 AI 自动完成这些巡检 & 监控任务：

集群健康巡检自动化：每日 / 每周自动巡检 TiDB、TiKV、PD、监控组件状态，自动出报告。
容量预测自动化：自动预测磁盘、CPU、内存、连接数未来 7/30 天是否会爆。
配置合规巡检：自动检查参数不合理、版本不一致、磁盘风险、副本异常。
热点自动巡检：自动发现表热点、行热点、索引热点。
备份有效性自动校验：自动检查备份是否成功、是否可恢复。
异常指标自动降噪：自动识别突刺、抖动、周期性异常、渐变异常，不用人盯屏。
问题 4 TiDB 各组件健康管理，我希望 AI 提供具体诊断 + 预测能力：
组件状态实时诊断：
1）TiKV 存储异常、Raft 同步慢、落盘慢
2）PD 调度异常、磁盘写入慢、心跳异常
3）故障预测能力：
- 预测节点即将宕机
- 预测 Raft 同步可能卡住
- 预测磁盘即将满 / 性能下降
  4）自动给出修复方案：
- 建议调整调度策略
  建议扩容 / 移热点
  建议重启 / 替换异常节点
  5）整体健康评分：给集群打分，指出最弱环节，而不是零散指标。
  6）多维度关联诊断：把组件状态、资源、负载、流量、日志自动关联分析，给出整体结论。