【TiDBer 唠嗑茶话会 194】AI + TEM 智能运维,假如你来开发!你会怎么样做?

为什么会有这样子一期活动?

在上一期的
【TiDBer 唠嗑茶话会 193】开工大吉,新的一年,你希望 TiDB 有哪些新的功能!
唠嗑茶话会中,大家提及最多的就是自动化/智能运维了,那么如果咱们结合 TEM 能实现的话,现在交给你来开发!你会怎么做呢?

TEM 是什么?

TEM(TiDB Enterprise Manager)平凯数据库(TiDB 企业版) 企业级运维管理平台 。它通过智能化、统一化、规范化、可视化、自动化的资源纳管、运维编排、监控告警、备份恢复、故障恢复、性能诊断等端到端的管控能力,提供高效、便捷且可靠的运维管控解决方案,解决在管理 TiDB 集群过程中面临的各类复杂挑战。

TEM 可纳管平凯数据库所有发行的商业版及社区版本 v6.5 以上版本集群


TEM 目前主要包含任务子系统和 TEM 核心服务,并通过 TiUP、Agent、SSH 对部署在物理机或 VM 上的 TiDB 集群进行管理。任务子系统主要负责管理 TEM 系统需要执行的各类任务,包括周期性任务、一次性任务等。在 TEM 核心服务中,包含了集群管理、备份恢复管理、告警管理、主机管理等功能模块。用户可以通过图形化用户界面来访问 TEM,完成对 TiDB 集群和其各个组件的管理。






TEM 免费试用

唠嗑茶话会调研

参与方式 一 开放性问题

  • 如果你是开发工程师,你觉得你会动手结合 AI 及 TEM 运维平台,去做哪些“简单且有效果、容易实现”智能运维的功能开发?

  • 你会具体怎么样做?
    这是 TEM 现有的功能:

参与方式二 回复几个具体问题:

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

例如自动识别故障类型、定位问题根源、提供解决方案等。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

例如自动识别慢查询模式、提供 SQL 优化建议、预测潜在性能瓶颈等。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

例如 7x24 小时无人值守巡检、异常指标智能预警、资源使用趋势预测等。

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

例如组件健康度评分、潜在故障风险预警、性能瓶颈预测等。

参与奖励

认真回复以上问题,可获得 50 积分 & 经验值!

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

自动识别节点宕机、网络分区、Raft 异常、Region 不可用、事务阻塞、数据同步延迟、磁盘 IO 瓶颈、内存溢出并发信息过来

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

识别 Top N 慢查询、周期性慢查询、突发慢查询

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
预测 CPU、内存、磁盘、连接数、存储容量未来 7/30 天趋势,给出扩容 / 缩容 / 参数调优建议,支撑业务峰值(如大促)准备

自动检查备份任务状态、备份完整性、恢复点有效性;巡检 Raft 副本数、Leader 分布、高可用配置,确保灾备能力达标
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
对 TiDB Server、TiKV、PD、监控、备份等组件,从可用性、性能、资源、稳定性、风险多维度计算健康分,提前给出处置建议

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

自动识别问题根源

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

慢查询,死锁

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
自动故障恢复

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

自动定位并解决故障

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

慢查询sql的具体原因,并给出优化方案

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

异常指标预警。

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

潜在故障风险预警、性能瓶颈预测

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

自动定位并解决故障、定位问题根源

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

慢查询

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

资源使用趋势预测。

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

潜在故障风险预警

如果你是开发工程师,你觉得你会动手结合 AI 及 TEM 运维平台,去做哪些“简单且有效果、容易实现”智能运维的功能开发?
痛点:TiDB 组件多(PD, TiKV, TiDB, TiFlash),告警风暴频繁。运维人员收到大量“CPU高”、“延迟高”的邮件/短信,难判断哪个是根源。
解决方式:
输入:将同一时间窗口内的多条原始告警(Prometheus alerts)、相关组件的错误日志片段、以及当前的拓扑状态作为Context投喂给 LLM。
处理:让 LLM 基于内置的 TiDB 故障知识库RAG,识别告警之间的因果关系(例如:TiKV Disk Full导致了PD Leader切换,进而导致查询超时)。
输出:生成一份“快速可读”的报告,明确指出:“核心问题是节点node-3磁盘已满,其他5条告警均为衍生现象”,并给出建议操作,如“清理日志”或“扩容”。
不需要训练模型,只需调用现有LLM API + 简单的Prompt + RAG。直接减少无效告警阅读时间,让运维人员一眼看到重点。

3 个赞

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
节点级故障快速定位:自动检测节点宕机、磁盘 IO 瓶颈、内存溢出(OOM)等硬件/资源异常,精准定位故障节点并触发告警;
网络与协议层异常诊断:识别网络分区、Raft 协议异常(如 Leader 选举失败、日志同步中断)、Region 不可用(如副本缺失、心跳超时)等分布式系统问题;
事务与数据同步问题:自动检测事务阻塞(如锁竞争、长事务)、数据同步延迟(如 TiCDC 同步滞后、Raft 复制延迟),并关联业务影响分析;
综合故障根因定位:通过多维度日志、指标关联分析,快速定位故障根因(如网络抖动导致 Raft 异常、磁盘 IO 瓶颈引发事务阻塞)。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
慢查询精准识别:自动识别 Top N 慢查询(按执行时间、扫描行数排序)、周期性慢查询(如定时任务引发的规律性延迟)、突发慢查询(如业务高峰期的瞬时性能下降);
多维度分析诊断:基于执行计划分析(如全表扫描、索引缺失)、锁竞争分析(如行锁等待)、资源使用分析(如 CPU/内存瓶颈),定位慢查询根因;
智能优化建议:生成索引优化建议(如新增/修改索引)、SQL 改写推荐(如避免子查询、拆分复杂语句)、参数调优方案(如调整 tidb_distsql_scan_concurrency),并支持自动执行优化操作(需确认权限)。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
资源趋势预测与容量规划:基于历史数据预测 CPU、内存、磁盘、连接数、存储容量未来 7/30 天趋势,结合业务负载特征(如大促峰值)生成扩容/缩容/参数调优建议;
备份与恢复有效性验证:自动检查备份任务执行状态、备份文件完整性(如校验和验证)、恢复点目标(RPO)有效性,确保备份可恢复;
高可用与灾备能力巡检:定期检查 Raft 副本数是否符合冗余要求、Leader 分布是否均衡、高可用配置(如多 AZ 部署)是否生效,确保灾备能力达标。

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
多维度健康分计算:从可用性(如服务可用率、故障恢复时间)、性能(如 QPS、延迟)、资源(如 CPU/内存使用率)、稳定性(如异常波动频率)、风险(如潜在故障预测)五个维度计算组件健康分;
智能诊断与预测:基于健康分异常波动,提前识别潜在风险(如 TiKV 磁盘空间不足、PD 调度延迟),并生成处置建议(如扩容 TiKV 节点、调整 PD 调度策略);
全链路健康视图:整合各组件健康状态,形成集群整体健康视图,支持按组件、按时间维度追溯健康分变化原因,辅助运维决策。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

提供大模型配置,辅助做故障的根因定位

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

识别根因SQL,给出优化建议

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

自动识别高风险高负载SQL,自增值溢出巡检,提前告知风险

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

大模型问题诊断能力,并给出分析过程。

日报和周报必须要有的,内容附带告警项和推荐变更项

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

自动识别问题,并从知识库获取解决方案提供建议。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

慢sql分析点位和优化

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
巡检出问题最好能给出处理方案。
自动检查备份任务状态、备份完整性、恢复点有效性;巡检 Raft 副本数、Leader 分布、高可用配置,确保灾备能力达标

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

从可用性、性能、资源、稳定性、风险多维度计算健康分,提前给出处置建议

如果你是开发工程师,你觉得你会动手结合 AI 及 TEM 运维平台,去做哪些“简单且有效果、容易实现”智能运维的功能开发?
基于历史趋势的容量预测与预警,传统的阈值告警往往是滞后的,等到报警时可能已经来不及扩容,业务已受损。可以根据过去3-6个月的TiKV磁盘使用量、QPS、内存使用量的时序数据。使用轻量级的时序预测算法,预测未来 7 天或 30 天的资源趋势。在 TEM 仪表盘上展示:按当前增长趋势,集群X的TiKV磁盘将在XX天后耗尽。

1 个赞

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

快速完成全量指标的采集与分析,AI给出初步的可能故障原因判断,随后根据初步根因收集详细日志(tikv、tidb报错日志、通过pd-ctl接口才能采集到的信息),再结合历史知识库内的问题匹配(特别是bug),给出综合判断的故障原因,每个原因后面呈现出具体的报错信息(用于人工复核),最后同步给出解决措施建议。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

1、进行ai分析时,关联SQL内涉及的对象的统计信息情况、历史执行计划绑定情况,综合判断是否需要hint绑定,并直接给出绑定的语句。
2、进行ai分析时,关联SQL规范,给出当前不合规的写法,给出改写建议以及改写后的执行计划。
3、对于反复需要手工绑定,当前优化前存在盲区的场景,自动收集相关信息聚类总结,给出脱敏后的上报信息,以便用户提交反馈。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

通过自然语音完成对应系统及模块的快速巡检,比如:
1、巡检XX下系统:快速返回ai总结的整体情况-系统是否有故障节点、连接数是否超标、是否有慢SQL、99响应时间在历史工作日的对比,并提供各模块的详细报告用于复核。
2、巡检XX系统的ticdc:返回特定模块的巡检结果。
3、故障上报:自动完成clinic日志的收集。
4、慢SQL上报:自动完成慢SQL上报相关数据的收集。

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

1、请判断XX系统,当前存储空间还可支持多少天?
2、请总结最近那些表发生了全表扫描?并给出导致全扫的问题SQL。
3、请总结最近有那些可优化的SQL?
4、请总结那些表最近有异常增长?
5、请根据系统使用情况,给出统计信息收集策略的建议。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题

  1. 故障智能诊断
    根因定位:自动关联故障时间点的所有组件日志、监控指标,直接定位到问题根源节点或组件
    故障类型识别:区分网络分区、磁盘满、内存溢出、锁冲突等常见故障类型
    影响范围评估:自动评估受影响的业务范围(哪些库、表、SQL 受影响)
  2. 故障恢复建议:提供具体的操作步骤
  3. 故障复盘辅助:自动生成故障发生前后的完整时间线(指标异常点 → 告警触发 → 业务影响出现)

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

  1. 慢查询智能识别
  2. 优化建议生成
    索引建议:自动推荐需要创建的索引,评估索引收益(预期耗时下降比例)
    SQL 改写建议:识别可优化的 SQL 写法(如避免隐式转换、优化 JOIN 顺序、合理使用分区裁剪)
    执行计划分析:对比历史执行计划,发现执行计划突变并给出回退建议

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

  1. 无人值守智能巡检:自动检查集群所有组件的关键指标,生成每日巡检报告
  2. 智能预警:自动发现指标的异常波动(如 QPS 突降、延时突增),而非仅依赖固定阈值
  3. 趋势预测:预测未来 7/30 天的磁盘、CPU、内存使用趋势

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

  1. 健康度评估体系
  2. 风险预警能力
  3. 诊断建议

问题 1 TiDB 集群故障时,我最希望 TEM AI 智能运维能帮助解决这些具体问题:
1)自动根因定位:不用人工翻日志、查监控,直接告诉我是 PD / TiKV / TiDB Server 哪一层出问题,是网络、磁盘、锁冲突、热点还是资源瓶颈。
2)故障自动止损:例如自动切流量、隔离异常节点、自动重启异常组件,避免业务雪崩。
3)恢复建议:给出可执行的恢复步骤
4)跨组件关联分析:把监控、日志、慢查询、调用链自动关联,自动画出故障传播链。
5)减少误告警:AI 自动过滤噪音告警,只报真正影响业务的问题。
问题 2 慢查询方面,我希望 TEM AI 提供具体分析 + 优化能力:
1)自动识别慢查询:自动抓取、归类、打分,标出最影响业务的 Top 慢 SQL。
2) AI 自动分析原因:

  • 是否没走索引
  • 是否大表全表扫
  • 是否数据倾斜 / 热点
  • 是否 TiDB 优化器选错索引
  • 是否事务过大、锁等待
  • 给出可直接执行的优化建议:
  • 建议加什么索引
  • 建议改写 SQL
  • 建议调整会话变量 / 统计信息
  • 预测慢查询:提前发现即将变慢的 SQL,提前优化。
  • 慢查询影响面分析:自动告诉哪些接口、哪些业务在调用,影响多大。
    问题 3日常运维中,我最希望 AI 自动完成这些巡检 & 监控任务:
  1. 集群健康巡检自动化:每日 / 每周自动巡检 TiDB、TiKV、PD、监控组件状态,自动出报告。
  2. 容量预测自动化:自动预测磁盘、CPU、内存、连接数未来 7/30 天是否会爆。
  3. 配置合规巡检:自动检查参数不合理、版本不一致、磁盘风险、副本异常。
  4. 热点自动巡检:自动发现表热点、行热点、索引热点。
  5. 备份有效性自动校验:自动检查备份是否成功、是否可恢复。
  6. 异常指标自动降噪:自动识别突刺、抖动、周期性异常、渐变异常,不用人盯屏。
    问题 4 TiDB 各组件健康管理,我希望 AI 提供具体诊断 + 预测能力:
    组件状态实时诊断:
    1)TiKV 存储异常、Raft 同步慢、落盘慢
    2)PD 调度异常、磁盘写入慢、心跳异常
    3)故障预测能力:
    • 预测节点即将宕机
    • 预测 Raft 同步可能卡住
    • 预测磁盘即将满 / 性能下降
      4)自动给出修复方案:
    • 建议调整调度策略
      建议扩容 / 移热点
      建议重启 / 替换异常节点
      5)整体健康评分:给集群打分,指出最弱环节,而不是零散指标。
      6) 多维度关联诊断:把组件状态、资源、负载、流量、日志自动关联分析,给出整体结论。
1 个赞

智能监控:基于 AI 的异常检测与趋势预测
AI 驱动的智能异常检测
实现方式:利用现有监控模块(数据库时间、SQL 负载、主机资源等)采集的时序数据,训练或集成轻量的异常检测模型,自动识别偏离正常基线的指标波动。
具体做法:
1.对 CPU、内存、连接数等核心指标进行历史数据建模,生成动态阈值。
2.当指标突破阈值时,触发 AI 告警,过滤掉已知的周期性波动(如定时任务),减少误报。
3.将 AI 识别的异常事件直接推送到现有 “告警事件” 模块,与人工告警统一管理。

参与方式 一 开放性问题:
基于 TEM 现有能力,开发 AI 告警降噪、容量预测、智能巡检日报,轻量落地提运维效率。

希望可以实现这些功能:

  1. 智能故障诊断 — 自动采集 TiDB/TiKV/PD 日志和监控指标,AI 分析根因并给出修复建议,比如慢查询、Region 热点、OOM 等问题自动定位,甚至自动修复。

  2. 容量预测与扩缩容 — 基于历史资源使用趋势预测磁盘/内存瓶颈,提前触发 tiup cluster scale-out/in 自动扩缩节点。

  3. SQL 性能优化 — 自动抓取慢查询日志,AI 分析执行计划,给出加索引、改写 SQL 或调整统计信息的建议,甚至自动执行 ANALYZE TABLE

  4. 巡检与健康报告 — 定时自动执行集群巡检(节点状态、副本数、Raft 日志延迟等),生成健康报告,异常时自动告警通知。

  5. 备份与恢复自动化 — 按策略自动调度 BR 备份任务,监控备份成功率,发生故障时辅助判断是否需要触发恢复流程。

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
告诉我集群现在发生了什么,按照压力的规律,对比过往监控,看看哪个指标增加的更快。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

识别出慢查询,并且给出建议,即使说sql已经没得优化了,可以参考表结构建议加一些索引,或者sql拆一下,换个写法之类的,说不定业务方就是脑残,随意写了个垃圾sql呢。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

实时对比监控,实际上也就是监控基线,识别出集群健康状态正在恶化,一般恶化的诱因是有新的业务变更,在业务刚上线没压力之前就识别出来,做出提示。

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

以上,就够了

问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?

  1. 全维度故障自动识别与根因定位:自动检测节点宕机、网络分区、Raft 协议异常、Region 不可用、事务阻塞、数据同步延迟、磁盘 IO 瓶颈、内存溢出等全类型故障,通过关联多组件日志、监控指标、拓扑状态,精准定位故障根因(如 TiKV 磁盘满引发 PD Leader 切换),区分核心故障与衍生故障,避免告警风暴干扰判断。
  2. 故障影响范围与业务关联分析:自动评估故障波及的库、表、SQL 及业务接口,量化影响程度(如核心交易链路延迟、读写成功率下降比例),让运维人员快速掌握故障业务影响。
  3. 分级故障处置与自动止损:对轻量故障(如单节点临时抖动)自动执行重启组件、隔离异常节点等操作;对严重故障(如多节点宕机、数据同步中断)给出可执行的恢复步骤,同时支持流量自动切分至灾备集群,避免业务雪崩。
  4. 故障全生命周期复盘:自动生成故障时间线(指标异常→告警触发→故障爆发→恢复完成),结合历史故障知识库匹配同类问题,分析故障诱因与处置优化点,形成复盘报告。
  5. 大模型辅助诊断:支持对接大模型,运维人员可通过自然语言查询故障细节,AI 基于故障数据给出多维度诊断结论与备选解决方案,并展示核心报错日志供人工复核。

问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?

  1. 多类型慢查询精准识别与聚类:自动抓取并分类 Top N 慢查询(按执行时间、扫描行数、影响业务范围排序)、周期性慢查询(如定时统计任务)、突发慢查询(如业务峰值、索引失效引发),同时识别慢查询引发的死锁、锁竞争问题。
  2. 全维度慢查询根因分析:从执行计划(全表扫描、索引缺失、优化器选错索引)、资源使用(CPU / 内存 / IO 瓶颈)、数据特征(数据倾斜、热点行)、事务特性(长事务、锁等待)多维度定位慢查询原因,对比历史执行计划,发现执行计划突变问题。
  3. 可落地的智能优化建议:针对慢查询生成索引优化建议(含索引收益评估,如预期耗时下降比例)、SQL 改写建议(避免隐式转换、拆分复杂语句、优化 JOIN 顺序)、参数调优方案(如调整 tidb_distsql_scan_concurrency);对需要 hint 绑定的场景,直接给出绑定语句并验证执行效果。
  4. 慢查询预测与前置优化:基于历史 SQL 执行数据和业务负载趋势,预测即将出现的慢查询(如大促前某类查询因数据量增长将变慢),提前推送优化建议;自动识别高风险高负载 SQL,标记潜在性能瓶颈。
  5. 慢查询影响面与优化效果追踪:明确慢查询关联的业务接口、调用频率,量化其对集群整体性能的影响;优化后自动追踪 SQL 执行耗时、资源占用变化,生成优化效果报告。

问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?

  1. 7x24 无人值守智能巡检:自动完成集群全组件(TiDB Server、TiKV、PD、TiFlash、CDC)关键指标巡检,覆盖配置合规性(参数不合理、版本不一致)、高可用配置(Raft 副本数、Leader 分布、多 AZ 部署)、备份有效性(备份任务状态、文件完整性、恢复点有效性),每日 / 每周生成巡检报告,问题项附带处理方案。
  2. 动态阈值异常检测与降噪:基于历史时序数据为 CPU、内存、磁盘、连接数、QPS、读写延迟等核心指标建立动态基线,自动识别异常波动(突刺、渐变、周期性异常),过滤定时任务等正常波动,减少误告警;异常指标关联相关日志和慢查询,给出初步原因判断。
  3. 资源趋势预测与容量规划:基于过去 3-6 个月的资源使用数据(TiKV 磁盘、CPU、内存、QPS),通过时序预测算法预测未来 7/30 天趋势,在仪表盘展示资源耗尽倒计时,结合业务峰值(如大促)给出扩容 / 缩容 / 参数调优建议,支撑资源提前规划。
  4. 热点与风险自动巡检:自动发现表热点、行热点、索引热点,给出热点迁移建议;巡检自增值溢出、统计信息过期、副本分布异常等潜在风险,提前推送告警并告知处置方法。
  5. 语音 / 自然语言巡检与数据自动收集:支持自然语音触发巡检(如 “巡检 XX 集群 CDC 模块”),快速返回集群整体状态、故障节点、慢查询、99 响应时间对比等核心信息;故障 / 慢查询上报时,自动完成 clinic 日志、慢查询相关数据的收集与脱敏,简化上报流程。
  6. 自动化运维任务闭环:对巡检发现的轻量问题(如统计信息过期、临时连接数超标)自动执行修复操作,修复后验证效果并记录;对复杂问题创建运维工单,关联相关数据并推送至责任人。

问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?

  1. 多维度组件健康度评分体系:对 TiDB Server、TiKV、PD、TiFlash、备份、监控等各组件,从可用性(服务可用率、故障恢复时间)、性能(QPS、读写延迟、调度效率)、资源(CPU / 内存 / 磁盘使用率、资源利用率)、稳定性(异常波动频率、故障发生次数)、风险(潜在故障概率、资源耗尽风险)5 个维度量化计算健康分,支持按组件、按时间维度查看健康分变化。
  2. 组件实时状态精准诊断:针对各组件核心问题实时诊断,如 TiKV 存储异常、Raft 同步慢、落盘慢;PD 调度异常、磁盘写入慢、心跳异常;TiDB Server 连接数超标、SQL 解析瓶颈等,诊断结果附带具体指标异常数据和根因分析。
  3. 精准的潜在故障风险预警:基于组件健康分变化、指标趋势、历史故障数据,提前预测节点宕机、Raft 同步卡住、磁盘即将满 / 性能下降、CDC 同步延迟等潜在故障,给出风险等级和预警时间,推送针对性处置建议(如扩容 TiKV 节点、调整 PD 调度策略、清理磁盘日志)。
  4. 集群整体健康视图与短板分析:整合各组件健康状态,生成集群整体健康评分,自动识别集群最弱环节(如某 TiKV 节点磁盘资源不足、某 PD 节点调度效率低),给出集群整体优化建议。
  5. 个性化资源与策略建议:基于组件使用情况,智能分析并给出统计信息收集策略(如调整收集频率、范围);针对异常增长的表,推送分区表优化、数据清理建议;回答运维人员自然语言查询(如 “XX 系统存储空间还可支持多少天?”“最近哪些表发生了全表扫描?”)。
  6. 大模型驱动的诊断与分析:支持大模型对组件健康问题进行深度诊断,给出详细分析过程和多套解决方案;基于组件全生命周期数据,总结故障规律,为集群架构优化、资源配置提供数据支撑。