【TiDBer 唠嗑茶话会 194】AI + TEM 智能运维,假如你来开发!你会怎么样做?

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
能够快速定位故障组件、分析根因并给出可执行的修复建议,缩短故障恢复时间。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
能自动识别慢查询 SQL、分析执行计划和资源消耗情况,并给出索引优化、SQL 改写或参数调整建议。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
能自动完成集群健康巡检、资源使用监控、异常指标告警以及日志异常分析等日常运维任务。

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
监控 TiDB 各组件运行状态,进行健康评估、潜在故障预测并提前给出优化或扩容建议。

1 个赞

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
快速定位故障原因并给出故障解决方案

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
慢查询的相关资源使用、统计信息、执行计划等信息

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
资源使用预警以及预测功能,针对节假日能给出相应的建议

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
各节点服务器的运行状态,基于数据增长预测磁盘瓶颈、资源瓶颈。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

自动识别节点宕机、、Raft 异常、Region 不可用、事务阻塞、数据同步延迟、磁盘 IO 瓶颈、内存溢出并发出告警

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

慢查询、周期性慢查询、突发慢查询

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
预测 CPU、内存、磁盘、连接数、存储容量未来 7/30 天趋势,给出扩容 / 缩容 / 参数调优建议,支撑业务峰值

自动检查备份任务状态、备份完整性、恢复点有效性;巡检 Raft 副本数、Leader 分布、高可用配置,确保灾备能力达标
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
对 TiDB Server、TiKV、PD、监控、备份等组件,从可用性、性能、资源、风险多维度计算健康分,提前给出处置建议

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

自动识别问题根源

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

慢查询,死锁

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
自动故障恢复

2 个赞

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

智能告警,给出处理意见

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

sql诊断,智能预警容量分析

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
慢sql跟因分析

感谢老师分享

  • 如果你是开发工程师,你觉得你会动手结合 AI 及 TEM 运维平台,去做哪些“简单且有效果、容易实现”智能运维的功能开发?
    作为开发工程师,结合AI技术与现有的TEM运维平台,我可以设计并实现一系列“简单且有效果、容易实现”的智能运维功能。这些功能旨在利用AI的感知、分析和生成能力,将TEM从一个优秀的自动化管理平台,升级为一个具备初步“思考”和“决策”能力的智能运维助手,从而显著提升运维效率、降低人为错误,并实现从“被动响应”到“主动预防”的转变,我的设计思路将围绕智能分析 层面展开,充分利用TEM已有的强大数据采集、监控和任务执行能力作为基础

  • 你会具体怎么样做?
    利用TEM现有的OpenAPI或直接查询其后台数据库,获取告警关联的上下文数据,部署一个轻量级的AI服务(可使用Python Flask/FastAPI框架),内部集成开源LLM。为降低实现难度,初期可直接调用云端大模型API(如DeepSeek),并对提示词(Prompt)进行精心工程化,确保输出结构化。
    在TEM的告警弹窗或详情页增加一个“AI分析”按钮,点击后调用该服务并展示分析报告。
    预期效果:将故障初步定位时间从“小时级”缩短到“分钟级”,帮助工程师快速聚焦问题本质,而非迷失在数据海洋中。

我会优先开发的 3 个"简单且有效"的 AI 功能

1. 智能告警降噪与根因分析(基于现有"告警"模块)

痛点:告警风暴时运维人员淹没在大量重复/关联告警中
效果 :告警量减少 70%+,MTTR(平均修复时间)缩短

2. SQL 负载智能诊断助手(基于现有"诊断-TOP SQL"模块)

痛点:慢查询优化依赖DBA经验,开发团队无法自助处理
效果 :开发自助解决率提升,DBA专注复杂问题

3. 容量预测与自动扩缩容建议(基于现有"资源管理-容量预估告警")

痛点:容量告警往往是"事后通知",扩容滞后于业务增长
效果 :从事后救火变事前预防,资源利用率提升

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
可以好用但是不能小白都可以, :joy:

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
集群异常排查,参数调优建议

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
定时巡检,ai判断后推送异常及建议方案

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
潜在故障风险预警、性能瓶颈预测

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
直接提供故障要求高一点,给出几点解决方向建议还是可行的

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
这个理论上是可以给出优化建议,最好再给出一个命令自动执行这些建议。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
简单的容量趋势预测;配置巡检;性能巡检;优化建议

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
监控打分,给出严重问题的预测和建议方案。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
能够通过知识库和经验库给出推荐的故障处理方式和后期优化建议。但是下发命令还是有管理员来执行。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
能够提供SQL执行计划和优化建议,最好可以提供等价SQL的改写方式。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
根据历史资源使用率的增长趋势给出扩容建议;检查备份有效性并在恢复环境做备份文件有效性检验

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
结合负载判断是代码问题还是业务良性增长,给出是否优化还是横向扩容的建议

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

AI真的可能自动化运维了。那还要DBA干什么?

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

个人觉得还得靠人。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

自动预警通知

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

感觉够呛。。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

能够识别异常的指标,定位错误日志和错误的具体节点

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

针对索引利用率不佳的场景,能够提供具体的参考信息,并给出优化建议

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

能够在给定的资源范围内,根据当前的资源使用情况,能够自动的扩缩容,自动备份数据

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

能够识别海量的告警或者诊断信息,拆解出影响稳定性部分的问题

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

希望 TEM 能自动识别故障类型(如 PD leader 失联、TiKV 节点宕机等)

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

希望 TEM 能自动聚类慢查询模式,识别高频低效 SQL,结合执行计划给出具体优化建议(如加索引、重写语句)

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

希望 TEM 实现 7×24 自动巡检,对 CPU、内存、IO、Region 分布等关键指标进行智能异常检测

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

希望 TEM 为 TiDB/TiKV/PD 等组件提供健康度评分,基于历史指标预测潜在故障(如 Raft group 异常、store 容量耗尽)

如果你是开发工程师,你觉得你会动手结合 AI 及 TEM 运维平台,去做哪些“简单且有效果、容易实现 ”智能运维的功能开发?
痛点:TiDB 组件多(PD, TiKV, TiDB, TiFlash),告警风暴频繁。运维人员收到大量“CPU高”、“延迟高”的邮件/短信,难判断哪个是根源。
解决方式:
输入:将同一时间窗口内的多条原始告警(Prometheus alerts)、相关组件的错误日志片段、以及当前的拓扑状态作为Context投喂给 LLM。
处理:让 LLM 基于内置的 TiDB 故障知识库RAG,识别告警之间的因果关系(例如:TiKV Disk Full导致了PD Leader切换,进而导致查询超时)。
输出:生成一份“快速可读”的报告,明确指出:“核心问题是节点node-3磁盘已满,其他5条告警均为衍生现象”,并给出建议操作,如“清理日志”或“扩容”。
不需要训练模型,只需调用现有LLM API + 简单的Prompt + RAG。直接减少无效告警阅读时间,让运维人员一眼看到重点。

如果你是开发工程师,你觉得你会动手结合 AI 及 TEM 运维平台,去做哪些“简单且有效果、容易实现”智能运维的功能开发?
1、 智能告警降噪与根因定位:减少无效告警,缩短 MTTR(平均修复时间)。
2、 智能慢查询分析与优化建议:TEM 能收集慢查询日志,但分析依赖人工经验。
3、 容量预测与自动扩缩容建议:TiDB 集群扩容需要提前规划,人工判断容易滞后或过度。
4、 智能巡检报告生成:定期巡检需要人工整理大量监控数据。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

自动修复并发送解决方案

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

开发前提供最佳解决方案

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

自动巡检和告警

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

潜在故障风险预警、自动修复

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
自动恢复故障,并打印相应日志。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

能够自动判断出问题出现在什么地方

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

热点问题,总会导致一个热点托慢整个集群的情况

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

能够给出故障原因,修复方案。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

自动识别问题根源

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

慢查询,死锁

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
自动故障恢复

2 个赞