【TiDBer 唠嗑茶话会 194】AI + TEM 智能运维,假如你来开发!你会怎么样做?

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

快速定位问题源头

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

定位性能瓶颈SQL,给出优化建议

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

容量预测

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

大模型问题诊断能力,并给出分析过程。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

快速定位问题源头,并给出可执行的解决方案选型,让人工决策采用的方案并继续执行

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

定位性能瓶颈SQL,给出可行的优化建议,并计算收益。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

安全预测、瓶颈预测(存储,性能),并给出建议

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

大模型问题诊断能力,并给出分析过程和建议方案。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

给出修复建议,以及出现问题的原因分析

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

给出SQL优化建议以及索引优化建议。更够根据相同sql调用次数和数据量给出tikv或者tiflash引擎使用建议

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

cpu、内存、存储超过限制阈值进行提醒。慢语句监控,高危操作监控

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

故障风险预警。以及故障出现后的诊断分析。

问题1:自动限流,自动解决问题。问题2:进行智能分类,给出具体的点。问题3:容量检测,性能监视。问题4:自动分解 TiKV 处理请求的各个环节耗时

  • 如果你是开发工程师,你觉得你会动手结合 AI 及 TEM 运维平台,去做哪些“简单且有效果、容易实现”智能运维的功能开发?
    智能告警降噪 + 根因摘要

  • 你会具体怎么样做?

  • 拉取告警:
    定时 / 通过 webhook 拉取 TEM 5 分钟内同集群、同服务、同实例的告警。

  • 简单聚类
    按:服务名 + 主机 IP + 告警类型(如 OOM、5xx、连接失败)做分组。

  • AI 总结
    把聚合后的告警丢给大模型,要求固定输出格式:

    影响服务:xxx
    故障现象:xxx
    可能根因:xxx(123)  
    建议操作:xxx
    
  • 替换原告警
    只推这条总结到企微,不再推原始冗余告警。

如果你是开发工程师,你觉得你会动手结合 AI 及 TEM 运维平台,去做哪些“简单且有效果、容易实现 ”智能运维的功能开发?

最容易的就是做AI慢查询诊断和优化,然后是监控异常+AI分析,降低告警频率

慢查询优化,AI分析有哪些可以优化的点

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
自动找到问题告警,询问是否确认自动修复

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
定位到根本原因和问题Sql

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
日常负载检测,性能优化,故障修复,

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

快速定位故障点,提供解决方案,或自动修复功能

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

识别慢查询的原因,给出优化建议

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

对高负载的一些性能参数,表统计健康度,999线的sql延时等

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

TiDB 健康检查报告内的所有检查项目,还有日志分析,性能瓶颈,根据数据增长量预测现有的集群能支撑到何时

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

给出问题结论,并直接完成优化。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

慢SQL,等待,优化建议。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

问题修复后,发送短信提醒。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

给出问题结论,并直接完成优化。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

慢SQL,等待,优化建议。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

问题修复后,发送短信提醒。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

直接完成优化,记录优化日志。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

慢SQL,等待,锁,优化方案。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

自动生成巡检报告。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

给出问题结论,并直接完成优化。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

慢SQL,等待,优化建议。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

问题修复后,发送短信提醒。