为什么会有这样子一期活动?
在上一期的
【TiDBer 唠嗑茶话会 193】开工大吉,新的一年,你希望 TiDB 有哪些新的功能!
唠嗑茶话会中,大家提及最多的就是自动化/智能运维了,那么如果咱们结合 TEM 能实现的话,现在交给你来开发!你会怎么做呢?
TEM(TiDB Enterprise Manager)平凯数据库(TiDB 企业版) 企业级运维管理平台 。它通过智能化、统一化、规范化、可视化、自动化的资源纳管、运维编排、监控告警、备份恢复、故障恢复、性能诊断等端到端的管控能力,提供高效、便捷且可靠的运维管控解决方案,解决在管理 TiDB 集群过程中面临的各类复杂挑战。
TEM 可纳管平凯数据库所有发行的商业版及社区版本 v6.5 以上版本集群
TEM 目前主要包含任务子系统和 TEM 核心服务,并通过 TiUP、Agent、SSH 对部署在物理机或 VM 上的 TiDB 集群进行管理。任务子系统主要负责管理 TEM 系统需要执行的各类任务,包括周期性任务、一次性任务等。在 TEM 核心服务中,包含了集群管理、备份恢复管理、告警管理、主机管理等功能模块。用户可以通过图形化用户界面来访问 TEM,完成对 TiDB 集群和其各个组件的管理。
TEM 免费试用
前言
在数据库选型的过程中,我们常常会遇到一个经典的“不可能三角”: 水平扩展、业务透明和极致性能 。传统的集中式数据库(如MySQL、Oracle)在性能和业务透明上表现出色,但在扩展方面却力不从心。而分布式数据库虽然解决了扩展问题,但往往又增加了架构的复杂性和运维成本。
[image]
现在,平凯数据库(TiDB 企业版)为您带来了全新的解决方案—— 敏捷模式 。它是基于同一套强大内核衍…
唠嗑茶话会调研
参与方式 一 开放性问题
参与方式二 回复几个具体问题:
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
例如自动识别故障类型、定位问题根源、提供解决方案等。
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
例如自动识别慢查询模式、提供 SQL 优化建议、预测潜在性能瓶颈等。
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
例如 7x24 小时无人值守巡检、异常指标智能预警、资源使用趋势预测等。
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
例如组件健康度评分、潜在故障风险预警、性能瓶颈预测等。
参与奖励
认真回复以上问题,可获得 50 积分 & 经验值!
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
自动识别节点宕机、网络分区、Raft 异常、Region 不可用、事务阻塞、数据同步延迟、磁盘 IO 瓶颈、内存溢出并发信息过来
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
识别 Top N 慢查询、周期性慢查询、突发慢查询
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
预测 CPU、内存、磁盘、连接数、存储容量未来 7/30 天趋势,给出扩容 / 缩容 / 参数调优建议,支撑业务峰值(如大促)准备
自动检查备份任务状态、备份完整性、恢复点有效性;巡检 Raft 副本数、Leader 分布、高可用配置,确保灾备能力达标
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
对 TiDB Server、TiKV、PD、监控、备份等组件,从可用性、性能、资源、稳定性、风险多维度计算健康分,提前给出处置建议
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
自动识别问题根源
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
慢查询,死锁
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
自动故障恢复
wfxxh
(倔强的蜗牛)
2026 年3 月 6 日 00:47
5
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
自动定位并解决故障
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
慢查询sql的具体原因,并给出优化方案
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
异常指标预警。
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
潜在故障风险预警、性能瓶颈预测
纯白镇的小智
(Ti D Ber Qm Qja01 M)
2026 年3 月 6 日 01:01
6
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
自动定位并解决故障、定位问题根源
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
慢查询
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
资源使用趋势预测。
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
潜在故障风险预警
Sakura6680
(Ti D Ber F92 Vr0 Yh)
2026 年3 月 6 日 01:10
7
如果你是开发工程师,你觉得你会动手结合 AI 及 TEM 运维平台,去做哪些“简单且有效果、容易实现 ”智能运维的功能开发?
痛点:TiDB 组件多(PD, TiKV, TiDB, TiFlash),告警风暴频繁。运维人员收到大量“CPU高”、“延迟高”的邮件/短信,难判断哪个是根源。
解决方式:
输入:将同一时间窗口内的多条原始告警(Prometheus alerts)、相关组件的错误日志片段、以及当前的拓扑状态作为Context投喂给 LLM。
处理:让 LLM 基于内置的 TiDB 故障知识库RAG,识别告警之间的因果关系(例如:TiKV Disk Full导致了PD Leader切换,进而导致查询超时)。
输出:生成一份“快速可读”的报告,明确指出:“核心问题是节点node-3磁盘已满,其他5条告警均为衍生现象”,并给出建议操作,如“清理日志”或“扩容”。
不需要训练模型,只需调用现有LLM API + 简单的Prompt + RAG。直接减少无效告警阅读时间,让运维人员一眼看到重点。
3 个赞
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
节点级故障快速定位:自动检测节点宕机、磁盘 IO 瓶颈、内存溢出(OOM)等硬件/资源异常,精准定位故障节点并触发告警;
网络与协议层异常诊断:识别网络分区、Raft 协议异常(如 Leader 选举失败、日志同步中断)、Region 不可用(如副本缺失、心跳超时)等分布式系统问题;
事务与数据同步问题:自动检测事务阻塞(如锁竞争、长事务)、数据同步延迟(如 TiCDC 同步滞后、Raft 复制延迟),并关联业务影响分析;
综合故障根因定位:通过多维度日志、指标关联分析,快速定位故障根因(如网络抖动导致 Raft 异常、磁盘 IO 瓶颈引发事务阻塞)。
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
慢查询精准识别:自动识别 Top N 慢查询(按执行时间、扫描行数排序)、周期性慢查询(如定时任务引发的规律性延迟)、突发慢查询(如业务高峰期的瞬时性能下降);
多维度分析诊断:基于执行计划分析(如全表扫描、索引缺失)、锁竞争分析(如行锁等待)、资源使用分析(如 CPU/内存瓶颈),定位慢查询根因;
智能优化建议:生成索引优化建议(如新增/修改索引)、SQL 改写推荐(如避免子查询、拆分复杂语句)、参数调优方案(如调整 tidb_distsql_scan_concurrency),并支持自动执行优化操作(需确认权限)。
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
资源趋势预测与容量规划:基于历史数据预测 CPU、内存、磁盘、连接数、存储容量未来 7/30 天趋势,结合业务负载特征(如大促峰值)生成扩容/缩容/参数调优建议;
备份与恢复有效性验证:自动检查备份任务执行状态、备份文件完整性(如校验和验证)、恢复点目标(RPO)有效性,确保备份可恢复;
高可用与灾备能力巡检:定期检查 Raft 副本数是否符合冗余要求、Leader 分布是否均衡、高可用配置(如多 AZ 部署)是否生效,确保灾备能力达标。
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
多维度健康分计算:从可用性(如服务可用率、故障恢复时间)、性能(如 QPS、延迟)、资源(如 CPU/内存使用率)、稳定性(如异常波动频率)、风险(如潜在故障预测)五个维度计算组件健康分;
智能诊断与预测:基于健康分异常波动,提前识别潜在风险(如 TiKV 磁盘空间不足、PD 调度延迟),并生成处置建议(如扩容 TiKV 节点、调整 PD 调度策略);
全链路健康视图:整合各组件健康状态,形成集群整体健康视图,支持按组件、按时间维度追溯健康分变化原因,辅助运维决策。
DBRE
2026 年3 月 6 日 01:18
9
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
提供大模型配置,辅助做故障的根因定位
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
识别根因SQL,给出优化建议
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
自动识别高风险高负载SQL,自增值溢出巡检,提前告知风险
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
大模型问题诊断能力,并给出分析过程。
koby
(Ti D Ber Bk7apg Dl)
2026 年3 月 6 日 01:22
11
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
自动识别问题,并从知识库获取解决方案提供建议。
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
慢sql分析点位和优化
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
巡检出问题最好能给出处理方案。
自动检查备份任务状态、备份完整性、恢复点有效性;巡检 Raft 副本数、Leader 分布、高可用配置,确保灾备能力达标
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
从可用性、性能、资源、稳定性、风险多维度计算健康分,提前给出处置建议
如果你是开发工程师,你觉得你会动手结合 AI 及 TEM 运维平台,去做哪些“简单且有效果、容易实现 ”智能运维的功能开发?
基于历史趋势的容量预测与预警,传统的阈值告警往往是滞后的,等到报警时可能已经来不及扩容,业务已受损。可以根据过去3-6个月的TiKV磁盘使用量、QPS、内存使用量的时序数据。使用轻量级的时序预测算法,预测未来 7 天或 30 天的资源趋势。在 TEM 仪表盘上展示:按当前增长趋势,集群X的TiKV磁盘将在XX天后耗尽。
1 个赞
yg_2024
(yangguang)
2026 年3 月 6 日 01:29
13
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
快速完成全量指标的采集与分析,AI给出初步的可能故障原因判断,随后根据初步根因收集详细日志(tikv、tidb报错日志、通过pd-ctl接口才能采集到的信息),再结合历史知识库内的问题匹配(特别是bug),给出综合判断的故障原因,每个原因后面呈现出具体的报错信息(用于人工复核),最后同步给出解决措施建议。
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
1、进行ai分析时,关联SQL内涉及的对象的统计信息情况、历史执行计划绑定情况,综合判断是否需要hint绑定,并直接给出绑定的语句。
2、进行ai分析时,关联SQL规范,给出当前不合规的写法,给出改写建议以及改写后的执行计划。
3、对于反复需要手工绑定,当前优化前存在盲区的场景,自动收集相关信息聚类总结,给出脱敏后的上报信息,以便用户提交反馈。
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
通过自然语音完成对应系统及模块的快速巡检,比如:
1、巡检XX下系统:快速返回ai总结的整体情况-系统是否有故障节点、连接数是否超标、是否有慢SQL、99响应时间在历史工作日的对比,并提供各模块的详细报告用于复核。
2、巡检XX系统的ticdc:返回特定模块的巡检结果。
3、故障上报:自动完成clinic日志的收集。
4、慢SQL上报:自动完成慢SQL上报相关数据的收集。
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
1、请判断XX系统,当前存储空间还可支持多少天?
2、请总结最近那些表发生了全表扫描?并给出导致全扫的问题SQL。
3、请总结最近有那些可优化的SQL?
4、请总结那些表最近有异常增长?
5、请根据系统使用情况,给出统计信息收集策略的建议。
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题
故障智能诊断
根因定位:自动关联故障时间点的所有组件日志、监控指标,直接定位到问题根源节点或组件
故障类型识别:区分网络分区、磁盘满、内存溢出、锁冲突等常见故障类型
影响范围评估:自动评估受影响的业务范围(哪些库、表、SQL 受影响)
故障恢复建议:提供具体的操作步骤
故障复盘辅助:自动生成故障发生前后的完整时间线(指标异常点 → 告警触发 → 业务影响出现)
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
慢查询智能识别
优化建议生成
索引建议:自动推荐需要创建的索引,评估索引收益(预期耗时下降比例)
SQL 改写建议:识别可优化的 SQL 写法(如避免隐式转换、优化 JOIN 顺序、合理使用分区裁剪)
执行计划分析:对比历史执行计划,发现执行计划突变并给出回退建议
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
无人值守智能巡检:自动检查集群所有组件的关键指标,生成每日巡检报告
智能预警:自动发现指标的异常波动(如 QPS 突降、延时突增),而非仅依赖固定阈值
趋势预测:预测未来 7/30 天的磁盘、CPU、内存使用趋势
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
健康度评估体系
风险预警能力
诊断建议
MrSylar
( Mr.Sylar)
2026 年3 月 6 日 02:19
15
问题 1 TiDB 集群故障时,我最希望 TEM AI 智能运维能帮助解决这些具体问题:
1)自动根因定位:不用人工翻日志、查监控,直接告诉我是 PD / TiKV / TiDB Server 哪一层出问题,是网络、磁盘、锁冲突、热点还是资源瓶颈。
2)故障自动止损:例如自动切流量、隔离异常节点、自动重启异常组件,避免业务雪崩。
3)恢复建议:给出可执行的恢复步骤
4)跨组件关联分析:把监控、日志、慢查询、调用链自动关联,自动画出故障传播链。
5)减少误告警:AI 自动过滤噪音告警,只报真正影响业务的问题。
问题 2 慢查询方面,我希望 TEM AI 提供具体分析 + 优化能力:
1)自动识别慢查询:自动抓取、归类、打分,标出最影响业务的 Top 慢 SQL。
2) AI 自动分析原因:
是否没走索引
是否大表全表扫
是否数据倾斜 / 热点
是否 TiDB 优化器选错索引
是否事务过大、锁等待
给出可直接执行的优化建议:
建议加什么索引
建议改写 SQL
建议调整会话变量 / 统计信息
预测慢查询:提前发现即将变慢的 SQL,提前优化。
慢查询影响面分析:自动告诉哪些接口、哪些业务在调用,影响多大。
问题 3日常运维中,我最希望 AI 自动完成这些巡检 & 监控任务:
集群健康巡检自动化:每日 / 每周自动巡检 TiDB、TiKV、PD、监控组件状态,自动出报告。
容量预测自动化:自动预测磁盘、CPU、内存、连接数未来 7/30 天是否会爆。
配置合规巡检:自动检查参数不合理、版本不一致、磁盘风险、副本异常。
热点自动巡检:自动发现表热点、行热点、索引热点。
备份有效性自动校验:自动检查备份是否成功、是否可恢复。
异常指标自动降噪:自动识别突刺、抖动、周期性异常、渐变异常,不用人盯屏。
问题 4 TiDB 各组件健康管理,我希望 AI 提供具体诊断 + 预测能力:
组件状态实时诊断:
1)TiKV 存储异常、Raft 同步慢、落盘慢
2)PD 调度异常、磁盘写入慢、心跳异常
3)故障预测能力:
预测节点即将宕机
预测 Raft 同步可能卡住
预测磁盘即将满 / 性能下降
4)自动给出修复方案:
建议调整调度策略
建议扩容 / 移热点
建议重启 / 替换异常节点
5)整体健康评分:给集群打分,指出最弱环节,而不是零散指标。
6) 多维度关联诊断:把组件状态、资源、负载、流量、日志自动关联分析,给出整体结论。
1 个赞
智能监控:基于 AI 的异常检测与趋势预测
AI 驱动的智能异常检测
实现方式:利用现有监控模块(数据库时间、SQL 负载、主机资源等)采集的时序数据,训练或集成轻量的异常检测模型,自动识别偏离正常基线的指标波动。
具体做法:
1.对 CPU、内存、连接数等核心指标进行历史数据建模,生成动态阈值。
2.当指标突破阈值时,触发 AI 告警,过滤掉已知的周期性波动(如定时任务),减少误报。
3.将 AI 识别的异常事件直接推送到现有 “告警事件” 模块,与人工告警统一管理。
参与方式 一 开放性问题:
基于 TEM 现有能力,开发 AI 告警降噪、容量预测、智能巡检日报,轻量落地提运维效率。
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
告诉我集群现在发生了什么,按照压力的规律,对比过往监控,看看哪个指标增加的更快。
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
识别出慢查询,并且给出建议,即使说sql已经没得优化了,可以参考表结构建议加一些索引,或者sql拆一下,换个写法之类的,说不定业务方就是脑残,随意写了个垃圾sql呢。
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
实时对比监控,实际上也就是监控基线,识别出集群健康状态正在恶化,一般恶化的诱因是有新的业务变更,在业务刚上线没压力之前就识别出来,做出提示。
问题 4:对于 TiDB 各组件的健康状况管理,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的诊断和预测能力?
以上,就够了