【TiDBer 唠嗑茶话会 194】AI + TEM 智能运维，假如你来开发！你会怎么样做？

智慧同学 · 2026 年3 月 6 日 08:51

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？
能够快速定位故障组件、分析根因并给出可执行的修复建议，缩短故障恢复时间。

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？
能自动识别慢查询 SQL、分析执行计划和资源消耗情况，并给出索引优化、SQL 改写或参数调整建议。

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
能自动完成集群健康巡检、资源使用监控、异常指标告警以及日志异常分析等日常运维任务。

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？
监控 TiDB 各组件运行状态，进行健康评估、潜在故障预测并提前给出优化或扩容建议。

Kongdom · 2026 年3 月 6 日 09:54

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？
快速定位故障原因并给出故障解决方案

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？
慢查询的相关资源使用、统计信息、执行计划等信息

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
资源使用预警以及预测功能，针对节假日能给出相应的建议

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？
各节点服务器的运行状态，基于数据增长预测磁盘瓶颈、资源瓶颈。

TiDBer_小杰 · 2026 年3 月 6 日 10:47

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

自动识别节点宕机、、Raft 异常、Region 不可用、事务阻塞、数据同步延迟、磁盘 IO 瓶颈、内存溢出并发出告警

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

慢查询、周期性慢查询、突发慢查询

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
预测 CPU、内存、磁盘、连接数、存储容量未来 7/30 天趋势，给出扩容 / 缩容 / 参数调优建议，支撑业务峰值

自动检查备份任务状态、备份完整性、恢复点有效性；巡检 Raft 副本数、Leader 分布、高可用配置，确保灾备能力达标
问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？
对 TiDB Server、TiKV、PD、监控、备份等组件，从可用性、性能、资源、风险多维度计算健康分,提前给出处置建议

隔壁老帆 · 2026 年3 月 6 日 13:54

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

自动识别问题根源

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

慢查询，死锁

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
自动故障恢复

YuchongXU · 2026 年3 月 6 日 23:10

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

智能告警，给出处理意见

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

sql诊断，智能预警容量分析

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
慢sql跟因分析

TiDBer_xx13 · 2026 年3 月 7 日 01:48

感谢老师分享

柒柒天晴 · 2026 年3 月 7 日 02:14

如果你是开发工程师，你觉得你会动手结合 AI 及 TEM 运维平台，去做哪些“简单且有效果、容易实现”智能运维的功能开发？
作为开发工程师，结合AI技术与现有的TEM运维平台，我可以设计并实现一系列“简单且有效果、容易实现”的智能运维功能。这些功能旨在利用AI的感知、分析和生成能力，将TEM从一个优秀的自动化管理平台，升级为一个具备初步“思考”和“决策”能力的智能运维助手，从而显著提升运维效率、降低人为错误，并实现从“被动响应”到“主动预防”的转变,我的设计思路将围绕智能分析层面展开，充分利用TEM已有的强大数据采集、监控和任务执行能力作为基础
你会具体怎么样做？
利用TEM现有的OpenAPI或直接查询其后台数据库，获取告警关联的上下文数据,部署一个轻量级的AI服务（可使用Python Flask/FastAPI框架），内部集成开源LLM。为降低实现难度，初期可直接调用云端大模型API（如DeepSeek），并对提示词（Prompt）进行精心工程化，确保输出结构化。
在TEM的告警弹窗或详情页增加一个“AI分析”按钮，点击后调用该服务并展示分析报告。
预期效果：将故障初步定位时间从“小时级”缩短到“分钟级”，帮助工程师快速聚焦问题本质，而非迷失在数据海洋中。

TiDBer_Kylin · 2026 年3 月 7 日 04:16

我会优先开发的 3 个"简单且有效"的 AI 功能

1. 智能告警降噪与根因分析（基于现有"告警"模块）

痛点：告警风暴时运维人员淹没在大量重复/关联告警中
效果：告警量减少 70%+，MTTR（平均修复时间）缩短

2. SQL 负载智能诊断助手（基于现有"诊断-TOP SQL"模块）

痛点：慢查询优化依赖DBA经验，开发团队无法自助处理
效果：开发自助解决率提升，DBA专注复杂问题

3. 容量预测与自动扩缩容建议（基于现有"资源管理-容量预估告警"）

痛点：容量告警往往是"事后通知"，扩容滞后于业务增长
效果：从事后救火变事前预防，资源利用率提升

forever · 2026 年3 月 7 日 10:56

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？
可以好用但是不能小白都可以，

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？
集群异常排查，参数调优建议

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
定时巡检，ai判断后推送异常及建议方案

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？
潜在故障风险预警、性能瓶颈预测

洪七表哥 · 2026 年3 月 8 日 01:45

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？
直接提供故障要求高一点，给出几点解决方向建议还是可行的

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？
这个理论上是可以给出优化建议，最好再给出一个命令自动执行这些建议。

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
简单的容量趋势预测;配置巡检；性能巡检；优化建议

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？
监控打分，给出严重问题的预测和建议方案。

我是吉米哥 · 2026 年3 月 8 日 04:08

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？
能够通过知识库和经验库给出推荐的故障处理方式和后期优化建议。但是下发命令还是有管理员来执行。

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？
能够提供SQL执行计划和优化建议，最好可以提供等价SQL的改写方式。

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
根据历史资源使用率的增长趋势给出扩容建议；检查备份有效性并在恢复环境做备份文件有效性检验

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？
结合负载判断是代码问题还是业务良性增长，给出是否优化还是横向扩容的建议

wangccsy · 2026 年3 月 8 日 05:24

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

AI真的可能自动化运维了。那还要DBA干什么？

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

个人觉得还得靠人。

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

自动预警通知

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

感觉够呛。。

xfworld · 2026 年3 月 8 日 13:49

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

能够识别异常的指标，定位错误日志和错误的具体节点

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

针对索引利用率不佳的场景，能够提供具体的参考信息，并给出优化建议

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

能够在给定的资源范围内，根据当前的资源使用情况，能够自动的扩缩容，自动备份数据

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

能够识别海量的告警或者诊断信息，拆解出影响稳定性部分的问题

有你就好 · 2026 年3 月 8 日 14:02

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

希望 TEM 能自动识别故障类型（如 PD leader 失联、TiKV 节点宕机等）

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

希望 TEM 能自动聚类慢查询模式，识别高频低效 SQL，结合执行计划给出具体优化建议（如加索引、重写语句）

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

希望 TEM 实现 7×24 自动巡检，对 CPU、内存、IO、Region 分布等关键指标进行智能异常检测

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

希望 TEM 为 TiDB/TiKV/PD 等组件提供健康度评分，基于历史指标预测潜在故障（如 Raft group 异常、store 容量耗尽）

yaabb163 · 2026 年3 月 9 日 01:08

如果你是开发工程师，你觉得你会动手结合 AI 及 TEM 运维平台，去做哪些“简单且有效果、容易实现 ”智能运维的功能开发？
痛点：TiDB 组件多（PD, TiKV, TiDB, TiFlash），告警风暴频繁。运维人员收到大量“CPU高”、“延迟高”的邮件/短信，难判断哪个是根源。
解决方式：
输入：将同一时间窗口内的多条原始告警（Prometheus alerts）、相关组件的错误日志片段、以及当前的拓扑状态作为Context投喂给 LLM。
处理：让 LLM 基于内置的 TiDB 故障知识库RAG，识别告警之间的因果关系（例如：TiKV Disk Full导致了PD Leader切换，进而导致查询超时）。
输出：生成一份“快速可读”的报告，明确指出：“核心问题是节点node-3磁盘已满，其他5条告警均为衍生现象”，并给出建议操作，如“清理日志”或“扩容”。
不需要训练模型，只需调用现有LLM API + 简单的Prompt + RAG。直接减少无效告警阅读时间，让运维人员一眼看到重点。

Root先锋 · 2026 年3 月 9 日 01:09

如果你是开发工程师，你觉得你会动手结合 AI 及 TEM 运维平台，去做哪些“简单且有效果、容易实现”智能运维的功能开发？
1、智能告警降噪与根因定位：减少无效告警，缩短 MTTR（平均修复时间）。
2、智能慢查询分析与优化建议：TEM 能收集慢查询日志，但分析依赖人工经验。
3、容量预测与自动扩缩容建议：TiDB 集群扩容需要提前规划，人工判断容易滞后或过度。
4、智能巡检报告生成：定期巡检需要人工整理大量监控数据。

Hacker007 · 2026 年3 月 9 日 01:12

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

自动修复并发送解决方案

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

开发前提供最佳解决方案

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

自动巡检和告警

问题 4：对于 TiDB 各组件的健康状况管理，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力？

潜在故障风险预警、自动修复

TiDBer_xx13 · 2026 年3 月 9 日 01:40

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？
自动恢复故障，并打印相应日志。

Leonard · 2026 年3 月 9 日 01:54

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

能够自动判断出问题出现在什么地方

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

热点问题，总会导致一个热点托慢整个集群的情况

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？

能够给出故障原因，修复方案。

JayJay · 2026 年3 月 9 日 02:00

问题 1：在 TiDB 集群出现故障时，您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题？

自动识别问题根源

问题 2：对于 TiDB 集群中的慢查询问题，您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力？

慢查询，死锁

问题 3：在日常运维工作中，您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务？
自动故障恢复