【TiDBer 唠嗑茶话会 194】AI + TEM 智能运维，假如你来开发！你会怎么样做？

Billmay表妹 · 2026 年3 月 5 日 09:49

为什么会有这样子一期活动？

在上一期的
【TiDBer 唠嗑茶话会 193】开工大吉，新的一年，你希望 TiDB 有哪些新的功能！
唠嗑茶话会中，大家提及最多的就是自动化/智能运维了，那么如果咱们结合 TEM 能实现的话，现在交给你来开发！你会怎么做呢？

TEM 是什么？

TEM（TiDB Enterprise Manager）平凯数据库（TiDB 企业版）企业级运维管理平台。它通过智能化、统一化、规范化、可视化、自动化的资源纳管、运维编排、监控告警、备份恢复、故障恢复、性能诊断等端到端的管控能力，提供高效、便捷且可靠的运维管控解决方案，解决在管理 TiDB 集群过程中面临的各类复杂挑战。

TEM 可纳管平凯数据库所有发行的商业版及社区版本 v6.5 以上版本集群

TEM 目前主要包含任务子系统和 TEM 核心服务，并通过 TiUP、Agent、SSH 对部署在物理机或 VM 上的 TiDB 集群进行管理。任务子系统主要负责管理 TEM 系统需要执行的各类任务，包括周期性任务、一次性任务等。在 TEM 核心服务中，包含了集群管理、备份恢复管理、告警管理、主机管理等功能模块。用户可以通过图形化用户界面来访问 TEM，完成对 TiDB 集群和其各个组件的管理。

TEM 免费试用

唠嗑茶话会调研

参与方式一开放性问题

如果你是开发工程师，你觉得你会动手结合 AI 及 TEM 运维平台，去做哪些“简单且有效果、容易实现”智能运维的功能开发？
你会具体怎么样做？
这是 TEM 现有的功能：

image1778×1288 121 KB

参与方式二回复几个具体问题：

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

例如自动识别故障类型、定位问题根源、提供解决方案等。

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

例如自动识别慢查询模式、提供 SQL 优化建议、预测潜在性能瓶颈等。

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

例如 7x24 小时无人值守巡检、异常指标智能预警、资源使用趋势预测等。

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

例如组件健康度评分、潜在故障风险预警、性能瓶颈预测等。

参与奖励

认真回复以上问题，可获得 50 积分 & 经验值！

TiDBer_Ejh0eCXc · 2026 年3 月 5 日 14:38

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

自动识别节点宕机、网络分区、Raft 异常、Region 不可用、事务阻塞、数据同步延迟、磁盘 IO 瓶颈、内存溢出并发信息过来

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

识别 Top N 慢查询、周期性慢查询、突发慢查询

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
预测 CPU、内存、磁盘、连接数、存储容量未来 7/30 天趋势，给出扩容 / 缩容 / 参数调优建议，支撑业务峰值（如大促）准备

自动检查备份任务状态、备份完整性、恢复点有效性；巡检 Raft 副本数、Leader 分布、高可用配置，确保灾备能力达标
问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？
对 TiDB Server、TiKV、PD、监控、备份等组件，从可用性、性能、资源、稳定性、风险多维度计算健康分,提前给出处置建议

yytest · 2026 年3 月 5 日 23:20

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

自动识别问题根源

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

慢查询，死锁

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
自动故障恢复

wfxxh · 2026 年3 月 6 日 00:47

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

自动定位并解决故障

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

慢查询sql的具体原因，并给出优化方案

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

异常指标预警。

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

潜在故障风险预警、性能瓶颈预测

纯白镇的小智 · 2026 年3 月 6 日 01:01

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

自动定位并解决故障、定位问题根源

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

慢查询

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

资源使用趋势预测。

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

潜在故障风险预警

Sakura6680 · 2026 年3 月 6 日 01:10

如果你是开发工程师，你觉得你会动手结合 AI 及 TEM 运维平台，去做哪些“简单且有效果、容易实现”智能运维的功能开发？
痛点：TiDB 组件多（PD, TiKV, TiDB, TiFlash），告警风暴频繁。运维人员收到大量“CPU高”、“延迟高”的邮件/短信，难判断哪个是根源。
解决方式：
输入：将同一时间窗口内的多条原始告警（Prometheus alerts）、相关组件的错误日志片段、以及当前的拓扑状态作为Context投喂给 LLM。
处理：让 LLM 基于内置的 TiDB 故障知识库RAG，识别告警之间的因果关系（例如：TiKV Disk Full导致了PD Leader切换，进而导致查询超时）。
输出：生成一份“快速可读”的报告，明确指出：“核心问题是节点node-3磁盘已满，其他5条告警均为衍生现象”，并给出建议操作，如“清理日志”或“扩容”。
不需要训练模型，只需调用现有LLM API + 简单的Prompt + RAG。直接减少无效告警阅读时间，让运维人员一眼看到重点。

Augenstern · 2026 年3 月 6 日 01:17

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？
节点级故障快速定位：自动检测节点宕机、磁盘 IO 瓶颈、内存溢出（OOM）等硬件/资源异常，精准定位故障节点并触发告警；
网络与协议层异常诊断：识别网络分区、Raft 协议异常（如 Leader 选举失败、日志同步中断）、Region 不可用（如副本缺失、心跳超时）等分布式系统问题；
事务与数据同步问题：自动检测事务阻塞（如锁竞争、长事务）、数据同步延迟（如 TiCDC 同步滞后、Raft 复制延迟），并关联业务影响分析；
综合故障根因定位：通过多维度日志、指标关联分析，快速定位故障根因（如网络抖动导致 Raft 异常、磁盘 IO 瓶颈引发事务阻塞）。

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？
慢查询精准识别：自动识别 Top N 慢查询（按执行时间、扫描行数排序）、周期性慢查询（如定时任务引发的规律性延迟）、突发慢查询（如业务高峰期的瞬时性能下降）；
多维度分析诊断：基于执行计划分析（如全表扫描、索引缺失）、锁竞争分析（如行锁等待）、资源使用分析（如 CPU/内存瓶颈），定位慢查询根因；
智能优化建议：生成索引优化建议（如新增/修改索引）、SQL 改写推荐（如避免子查询、拆分复杂语句）、参数调优方案（如调整 tidb_distsql_scan_concurrency），并支持自动执行优化操作（需确认权限）。

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
资源趋势预测与容量规划：基于历史数据预测 CPU、内存、磁盘、连接数、存储容量未来 7/30 天趋势，结合业务负载特征（如大促峰值）生成扩容/缩容/参数调优建议；
备份与恢复有效性验证：自动检查备份任务执行状态、备份文件完整性（如校验和验证）、恢复点目标（RPO）有效性，确保备份可恢复；
高可用与灾备能力巡检：定期检查 Raft 副本数是否符合冗余要求、Leader 分布是否均衡、高可用配置（如多 AZ 部署）是否生效，确保灾备能力达标。

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？
多维度健康分计算：从可用性（如服务可用率、故障恢复时间）、性能（如 QPS、延迟）、资源（如 CPU/内存使用率）、稳定性（如异常波动频率）、风险（如潜在故障预测）五个维度计算组件健康分；
智能诊断与预测：基于健康分异常波动，提前识别潜在风险（如 TiKV 磁盘空间不足、PD 调度延迟），并生成处置建议（如扩容 TiKV 节点、调整 PD 调度策略）；
全链路健康视图：整合各组件健康状态，形成集群整体健康视图，支持按组件、按时间维度追溯健康分变化原因，辅助运维决策。

DBRE · 2026 年3 月 6 日 01:18

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

提供大模型配置，辅助做故障的根因定位

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

识别根因SQL，给出优化建议

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

自动识别高风险高负载SQL，自增值溢出巡检，提前告知风险

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

大模型问题诊断能力，并给出分析过程。

ShawnYan · 2026 年3 月 6 日 01:18

日报和周报必须要有的，内容附带告警项和推荐变更项

koby · 2026 年3 月 6 日 01:22

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

自动识别问题，并从知识库获取解决方案提供建议。

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

慢sql分析点位和优化

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
巡检出问题最好能给出处理方案。
自动检查备份任务状态、备份完整性、恢复点有效性；巡检 Raft 副本数、Leader 分布、高可用配置，确保灾备能力达标

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

从可用性、性能、资源、稳定性、风险多维度计算健康分,提前给出处置建议

TiDBer_bQt8evoF · 2026 年3 月 6 日 01:23

如果你是开发工程师，你觉得你会动手结合 AI 及 TEM 运维平台，去做哪些“简单且有效果、容易实现”智能运维的功能开发？
基于历史趋势的容量预测与预警，传统的阈值告警往往是滞后的，等到报警时可能已经来不及扩容，业务已受损。可以根据过去3-6个月的TiKV磁盘使用量、QPS、内存使用量的时序数据。使用轻量级的时序预测算法，预测未来 7 天或 30 天的资源趋势。在 TEM 仪表盘上展示：按当前增长趋势，集群X的TiKV磁盘将在XX天后耗尽。

yg_2024 · 2026 年3 月 6 日 01:29

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

快速完成全量指标的采集与分析，AI给出初步的可能故障原因判断，随后根据初步根因收集详细日志（tikv、tidb报错日志、通过pd-ctl接口才能采集到的信息），再结合历史知识库内的问题匹配（特别是bug），给出综合判断的故障原因，每个原因后面呈现出具体的报错信息（用于人工复核），最后同步给出解决措施建议。

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

1、进行ai分析时，关联SQL内涉及的对象的统计信息情况、历史执行计划绑定情况，综合判断是否需要hint绑定，并直接给出绑定的语句。
2、进行ai分析时，关联SQL规范，给出当前不合规的写法，给出改写建议以及改写后的执行计划。
3、对于反复需要手工绑定，当前优化前存在盲区的场景，自动收集相关信息聚类总结，给出脱敏后的上报信息，以便用户提交反馈。

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

通过自然语音完成对应系统及模块的快速巡检，比如：
1、巡检XX下系统:快速返回ai总结的整体情况-系统是否有故障节点、连接数是否超标、是否有慢SQL、99响应时间在历史工作日的对比，并提供各模块的详细报告用于复核。
2、巡检XX系统的ticdc：返回特定模块的巡检结果。
3、故障上报：自动完成clinic日志的收集。
4、慢SQL上报：自动完成慢SQL上报相关数据的收集。

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

1、请判断XX系统，当前存储空间还可支持多少天？
2、请总结最近那些表发生了全表扫描？并给出导致全扫的问题SQL。
3、请总结最近有那些可优化的SQL？
4、请总结那些表最近有异常增长？
5、请根据系统使用情况，给出统计信息收集策略的建议。

TiDBer_milan · 2026 年3 月 6 日 01:51

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题

故障智能诊断
根因定位：自动关联故障时间点的所有组件日志、监控指标，直接定位到问题根源节点或组件
故障类型识别：区分网络分区、磁盘满、内存溢出、锁冲突等常见故障类型
影响范围评估：自动评估受影响的业务范围（哪些库、表、SQL 受影响）
故障恢复建议：提供具体的操作步骤
故障复盘辅助：自动生成故障发生前后的完整时间线（指标异常点 → 告警触发 → 业务影响出现）

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

慢查询智能识别
优化建议生成
索引建议：自动推荐需要创建的索引，评估索引收益（预期耗时下降比例）
SQL 改写建议：识别可优化的 SQL 写法（如避免隐式转换、优化 JOIN 顺序、合理使用分区裁剪）
执行计划分析：对比历史执行计划，发现执行计划突变并给出回退建议

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

无人值守智能巡检：自动检查集群所有组件的关键指标，生成每日巡检报告
智能预警：自动发现指标的异常波动（如 QPS 突降、延时突增），而非仅依赖固定阈值
趋势预测：预测未来 7/30 天的磁盘、CPU、内存使用趋势

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

健康度评估体系
风险预警能力
诊断建议

MrSylar · 2026 年3 月 6 日 02:19

问题 1 TiDB 集群故障时，我最希望 TEM AI 智能运维能帮助解决这些具体问题：
1）自动根因定位：不用人工翻日志、查监控，直接告诉我是 PD / TiKV / TiDB Server 哪一层出问题，是网络、磁盘、锁冲突、热点还是资源瓶颈。
2）故障自动止损：例如自动切流量、隔离异常节点、自动重启异常组件，避免业务雪崩。
3）恢复建议：给出可执行的恢复步骤
4）跨组件关联分析：把监控、日志、慢查询、调用链自动关联，自动画出故障传播链。
5）减少误告警：AI 自动过滤噪音告警，只报真正影响业务的问题。
问题 2 慢查询方面，我希望 TEM AI 提供具体分析 + 优化能力：
1）自动识别慢查询：自动抓取、归类、打分，标出最影响业务的 Top 慢 SQL。
2) AI 自动分析原因：

是否没走索引
是否大表全表扫
是否数据倾斜 / 热点
是否 TiDB 优化器选错索引
是否事务过大、锁等待
给出可直接执行的优化建议：
建议加什么索引
建议改写 SQL
建议调整会话变量 / 统计信息
预测慢查询：提前发现即将变慢的 SQL，提前优化。
慢查询影响面分析：自动告诉哪些接口、哪些业务在调用，影响多大。
问题 3日常运维中，我最希望 AI 自动完成这些巡检 & 监控任务：

集群健康巡检自动化：每日 / 每周自动巡检 TiDB、TiKV、PD、监控组件状态，自动出报告。
容量预测自动化：自动预测磁盘、CPU、内存、连接数未来 7/30 天是否会爆。
配置合规巡检：自动检查参数不合理、版本不一致、磁盘风险、副本异常。
热点自动巡检：自动发现表热点、行热点、索引热点。
备份有效性自动校验：自动检查备份是否成功、是否可恢复。
异常指标自动降噪：自动识别突刺、抖动、周期性异常、渐变异常，不用人盯屏。
问题 4 TiDB 各组件健康管理，我希望 AI 提供具体诊断 + 预测能力：
组件状态实时诊断：
1）TiKV 存储异常、Raft 同步慢、落盘慢
2）PD 调度异常、磁盘写入慢、心跳异常
3）故障预测能力：
- 预测节点即将宕机
- 预测 Raft 同步可能卡住
- 预测磁盘即将满 / 性能下降
  4）自动给出修复方案：
- 建议调整调度策略
  建议扩容 / 移热点
  建议重启 / 替换异常节点
  5）整体健康评分：给集群打分，指出最弱环节，而不是零散指标。
  6）多维度关联诊断：把组件状态、资源、负载、流量、日志自动关联分析，给出整体结论。

zhaokede · 2026 年3 月 6 日 02:43

智能监控：基于 AI 的异常检测与趋势预测
AI 驱动的智能异常检测
实现方式：利用现有监控模块（数据库时间、SQL 负载、主机资源等）采集的时序数据，训练或集成轻量的异常检测模型，自动识别偏离正常基线的指标波动。
具体做法：
1.对 CPU、内存、连接数等核心指标进行历史数据建模，生成动态阈值。
2.当指标突破阈值时，触发 AI 告警，过滤掉已知的周期性波动（如定时任务），减少误报。
3.将 AI 识别的异常事件直接推送到现有 “告警事件” 模块，与人工告警统一管理。

TiDBer_mittens · 2026 年3 月 6 日 02:53

参与方式一开放性问题：
基于 TEM 现有能力，开发 AI 告警降噪、容量预测、智能巡检日报，轻量落地提运维效率。

TiDBer_SSUU · 2026 年3 月 6 日 03:06

希望可以实现这些功能：

智能故障诊断 — 自动采集 TiDB/TiKV/PD 日志和监控指标，AI 分析根因并给出修复建议，比如慢查询、Region 热点、OOM 等问题自动定位，甚至自动修复。
容量预测与扩缩容 — 基于历史资源使用趋势预测磁盘/内存瓶颈，提前触发 tiup cluster scale-out/in 自动扩缩节点。
SQL 性能优化 — 自动抓取慢查询日志，AI 分析执行计划，给出加索引、改写 SQL 或调整统计信息的建议，甚至自动执行 ANALYZE TABLE。
巡检与健康报告 — 定时自动执行集群巡检（节点状态、副本数、Raft 日志延迟等），生成健康报告，异常时自动告警通知。
备份与恢复自动化 — 按策略自动调度 BR 备份任务，监控备份成功率，发生故障时辅助判断是否需要触发恢复流程。

TiDBer_jYQINSnf · 2026 年3 月 6 日 03:07

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？
告诉我集群现在发生了什么，按照压力的规律，对比过往监控，看看哪个指标增加的更快。

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

识别出慢查询，并且给出建议，即使说sql已经没得优化了，可以参考表结构建议加一些索引，或者sql拆一下，换个写法之类的，说不定业务方就是脑残，随意写了个垃圾sql呢。

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

实时对比监控，实际上也就是监控基线，识别出集群健康状态正在恶化，一般恶化的诱因是有新的业务变更，在业务刚上线没压力之前就识别出来，做出提示。

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

以上，就够了

呢莫不爱吃鱼 · 2026 年3 月 6 日 06:29

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

全维度故障自动识别与根因定位：自动检测节点宕机、网络分区、Raft 协议异常、Region 不可用、事务阻塞、数据同步延迟、磁盘 IO 瓶颈、内存溢出等全类型故障，通过关联多组件日志、监控指标、拓扑状态，精准定位故障根因（如 TiKV 磁盘满引发 PD Leader 切换），区分核心故障与衍生故障，避免告警风暴干扰判断。
故障影响范围与业务关联分析：自动评估故障波及的库、表、SQL 及业务接口，量化影响程度（如核心交易链路延迟、读写成功率下降比例），让运维人员快速掌握故障业务影响。
分级故障处置与自动止损：对轻量故障（如单节点临时抖动）自动执行重启组件、隔离异常节点等操作；对严重故障（如多节点宕机、数据同步中断）给出可执行的恢复步骤，同时支持流量自动切分至灾备集群，避免业务雪崩。
故障全生命周期复盘：自动生成故障时间线（指标异常→告警触发→故障爆发→恢复完成），结合历史故障知识库匹配同类问题，分析故障诱因与处置优化点，形成复盘报告。
大模型辅助诊断：支持对接大模型，运维人员可通过自然语言查询故障细节，AI 基于故障数据给出多维度诊断结论与备选解决方案，并展示核心报错日志供人工复核。

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

多类型慢查询精准识别与聚类：自动抓取并分类 Top N 慢查询（按执行时间、扫描行数、影响业务范围排序）、周期性慢查询（如定时统计任务）、突发慢查询（如业务峰值、索引失效引发），同时识别慢查询引发的死锁、锁竞争问题。
全维度慢查询根因分析：从执行计划（全表扫描、索引缺失、优化器选错索引）、资源使用（CPU / 内存 / IO 瓶颈）、数据特征（数据倾斜、热点行）、事务特性（长事务、锁等待）多维度定位慢查询原因，对比历史执行计划，发现执行计划突变问题。
可落地的智能优化建议：针对慢查询生成索引优化建议（含索引收益评估，如预期耗时下降比例）、SQL 改写建议（避免隐式转换、拆分复杂语句、优化 JOIN 顺序）、参数调优方案（如调整 tidb_distsql_scan_concurrency）；对需要 hint 绑定的场景，直接给出绑定语句并验证执行效果。
慢查询预测与前置优化：基于历史 SQL 执行数据和业务负载趋势，预测即将出现的慢查询（如大促前某类查询因数据量增长将变慢），提前推送优化建议；自动识别高风险高负载 SQL，标记潜在性能瓶颈。
慢查询影响面与优化效果追踪：明确慢查询关联的业务接口、调用频率，量化其对集群整体性能的影响；优化后自动追踪 SQL 执行耗时、资源占用变化，生成优化效果报告。

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

7x24 无人值守智能巡检：自动完成集群全组件（TiDB Server、TiKV、PD、TiFlash、CDC）关键指标巡检，覆盖配置合规性（参数不合理、版本不一致）、高可用配置（Raft 副本数、Leader 分布、多 AZ 部署）、备份有效性（备份任务状态、文件完整性、恢复点有效性），每日 / 每周生成巡检报告，问题项附带处理方案。
动态阈值异常检测与降噪：基于历史时序数据为 CPU、内存、磁盘、连接数、QPS、读写延迟等核心指标建立动态基线，自动识别异常波动（突刺、渐变、周期性异常），过滤定时任务等正常波动，减少误告警；异常指标关联相关日志和慢查询，给出初步原因判断。
资源趋势预测与容量规划：基于过去 3-6 个月的资源使用数据（TiKV 磁盘、CPU、内存、QPS），通过时序预测算法预测未来 7/30 天趋势，在仪表盘展示资源耗尽倒计时，结合业务峰值（如大促）给出扩容 / 缩容 / 参数调优建议，支撑资源提前规划。
热点与风险自动巡检：自动发现表热点、行热点、索引热点，给出热点迁移建议；巡检自增值溢出、统计信息过期、副本分布异常等潜在风险，提前推送告警并告知处置方法。
语音 / 自然语言巡检与数据自动收集：支持自然语音触发巡检（如 “巡检 XX 集群 CDC 模块”），快速返回集群整体状态、故障节点、慢查询、99 响应时间对比等核心信息；故障 / 慢查询上报时，自动完成 clinic 日志、慢查询相关数据的收集与脱敏，简化上报流程。
自动化运维任务闭环：对巡检发现的轻量问题（如统计信息过期、临时连接数超标）自动执行修复操作，修复后验证效果并记录；对复杂问题创建运维工单，关联相关数据并推送至责任人。

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

多维度组件健康度评分体系：对 TiDB Server、TiKV、PD、TiFlash、备份、监控等各组件，从可用性（服务可用率、故障恢复时间）、性能（QPS、读写延迟、调度效率）、资源（CPU / 内存 / 磁盘使用率、资源利用率）、稳定性（异常波动频率、故障发生次数）、风险（潜在故障概率、资源耗尽风险）5 个维度量化计算健康分，支持按组件、按时间维度查看健康分变化。
组件实时状态精准诊断：针对各组件核心问题实时诊断，如 TiKV 存储异常、Raft 同步慢、落盘慢；PD 调度异常、磁盘写入慢、心跳异常；TiDB Server 连接数超标、SQL 解析瓶颈等，诊断结果附带具体指标异常数据和根因分析。
精准的潜在故障风险预警：基于组件健康分变化、指标趋势、历史故障数据，提前预测节点宕机、Raft 同步卡住、磁盘即将满 / 性能下降、CDC 同步延迟等潜在故障，给出风险等级和预警时间，推送针对性处置建议（如扩容 TiKV 节点、调整 PD 调度策略、清理磁盘日志）。
集群整体健康视图与短板分析：整合各组件健康状态，生成集群整体健康评分，自动识别集群最弱环节（如某 TiKV 节点磁盘资源不足、某 PD 节点调度效率低），给出集群整体优化建议。
个性化资源与策略建议：基于组件使用情况，智能分析并给出统计信息收集策略（如调整收集频率、范围）；针对异常增长的表，推送分区表优化、数据清理建议；回答运维人员自然语言查询（如 “XX 系统存储空间还可支持多少天？”“最近哪些表发生了全表扫描？”）。
大模型驱动的诊断与分析：支持大模型对组件健康问题进行深度诊断，给出详细分析过程和多套解决方案；基于组件全生命周期数据，总结故障规律，为集群架构优化、资源配置提供数据支撑。

【TiDBer 唠嗑茶话会 194】AI + TEM 智能运维，假如你来开发！你会怎么样做？

为什么会有这样子一期活动？

TEM 是什么？

TEM 免费试用

唠嗑茶话会调研

参与方式 一 开放性问题

参与方式二 回复几个具体问题：

参与奖励

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

参与方式一开放性问题

参与方式二回复几个具体问题：