问题 1 TiDB 集群故障时,我最希望 TEM AI 智能运维能帮助解决这些具体问题:
1)自动根因定位:不用人工翻日志、查监控,直接告诉我是 PD / TiKV / TiDB Server 哪一层出问题,是网络、磁盘、锁冲突、热点还是资源瓶颈。
2)故障自动止损:例如自动切流量、隔离异常节点、自动重启异常组件,避免业务雪崩。
3)恢复建议:给出可执行的恢复步骤
4)跨组件关联分析:把监控、日志、慢查询、调用链自动关联,自动画出故障传播链。
5)减少误告警:AI 自动过滤噪音告警,只报真正影响业务的问题。
问题 2 慢查询方面,我希望 TEM AI 提供具体分析 + 优化能力:
1)自动识别慢查询:自动抓取、归类、打分,标出最影响业务的 Top 慢 SQL。
2) AI 自动分析原因:
- 是否没走索引
- 是否大表全表扫
- 是否数据倾斜 / 热点
- 是否 TiDB 优化器选错索引
- 是否事务过大、锁等待
- 给出可直接执行的优化建议:
- 建议加什么索引
- 建议改写 SQL
- 建议调整会话变量 / 统计信息
- 预测慢查询:提前发现即将变慢的 SQL,提前优化。
- 慢查询影响面分析:自动告诉哪些接口、哪些业务在调用,影响多大。
问题 3日常运维中,我最希望 AI 自动完成这些巡检 & 监控任务:
- 集群健康巡检自动化:每日 / 每周自动巡检 TiDB、TiKV、PD、监控组件状态,自动出报告。
- 容量预测自动化:自动预测磁盘、CPU、内存、连接数未来 7/30 天是否会爆。
- 配置合规巡检:自动检查参数不合理、版本不一致、磁盘风险、副本异常。
- 热点自动巡检:自动发现表热点、行热点、索引热点。
- 备份有效性自动校验:自动检查备份是否成功、是否可恢复。
- 异常指标自动降噪:自动识别突刺、抖动、周期性异常、渐变异常,不用人盯屏。
问题 4 TiDB 各组件健康管理,我希望 AI 提供具体诊断 + 预测能力:
组件状态实时诊断:
1)TiKV 存储异常、Raft 同步慢、落盘慢
2)PD 调度异常、磁盘写入慢、心跳异常
3)故障预测能力:- 预测节点即将宕机
- 预测 Raft 同步可能卡住
- 预测磁盘即将满 / 性能下降
4)自动给出修复方案: - 建议调整调度策略
建议扩容 / 移热点
建议重启 / 替换异常节点
5)整体健康评分:给集群打分,指出最弱环节,而不是零散指标。
6) 多维度关联诊断:把组件状态、资源、负载、流量、日志自动关联分析,给出整体结论。