Prewrite 阶段本身耗时极高:大概率是事务涉及的 TiKV 节点数量多、数据分布分散、网络延迟高,或 TiKV 负载过高
Commit 阶段多次重试:Prewrite 完成后,Commit 请求持续失败,导致大量 Backoff 等待,最终拖慢整个 SQL
默认的阈值设置的太小
一般这个告警没啥影响,主要看其他指标
PD 与 TiKV 通信中断 / 心跳丢失
TiKV PD 心跳断连、Worker 线程死锁、网络不通。
表现:PD 显示 TiKV 异常、心跳指标为 0、日志反复重连 PD。
PD 自身异常
PD OOM、Leader 选举失败、TSO 分配阻塞、etcd 延迟过高。
系统时间 / NTP 异常
节点时钟漂移、NTP 不同步、时间回退 → TSO 混乱。
TiKV 线程 / 并发管理器阻塞
线程死锁、GC 卡顿、Raft 同步延迟 → max_ts 无法更新。
跨集群误请求 /max_ts 被异常拉高
错误集群 ID、外部请求写入超大 TS → 超出 PD 可分配范围。
大概率是服务器时…
tdcdc的工作流是这样
比如你创建一个 Changefeed,需要同步 4 张表,这个 Changefeed 被拆分成了 3 个任务(task),均匀的分发到了 TiCDC 集群的 3 个 Capture 节点上,在 TiCDC 对这些数据进行了处理之后,数据同步到了下游的系统。
你这种查询changefeed落到哪个节点是没法查询的。
granafa监控是可以自己添加告警的,但是比较麻烦,默认的图表监控中使用了模版变量,granafa告警不支持,需要自己修改这个Dashboard 的 json
你排查下慢sql,从io的使用率看,我觉的是大量的小表全表扫描的sql引起的
你这集群io太高了,一般是有大量全表扫描或者不走索引的sql。
问题 1:在 TiDB 集群出现故障时,您最希望 TEM 的 AI 智能运维功能能够帮助您解决哪些具体问题?
实时检查数据库状态,出现问题及时告警,并详细描述问题原因及如何处理。
问题 2:对于 TiDB 集群中的慢查询问题,您希望 TEM 的 AI 智能运维功能能够提供哪些具体的分析和优化能力?
提供慢查询慢在哪里、如何优化等
问题 3:在日常运维工作中,您最希望 TEM 的 AI 智能运维功能能够自动化哪些巡检和监控任务?
数据库状态,各个节点状态,存在隐患,优化项。
CREATE TABLE bike_work_mode_log (
id bigint(19) NOT NULL /*T![auto_rand] AUTO_RANDOM(5) */ COMMENT ‘主键’,
imei varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL COMMENT ‘IMEI’,
vin varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL COMMENT ‘车架号’,
protocol smallint…
你现在用 TiDB 时,最卡业务、最费人力的问题是什么?
慢查询优化
如果加一个新功能就能少加班、少踩坑、少花钱,你最希望是什么?
自动巡检,预上报问题
什么功能一旦上线,会让你更愿意升级 / 付费企业版?
暂时没有
我发现你们都不做备份的吗?
发生这种事要么Unsafe Recovery,要么重建集群从备份恢复
这个只是一个判断的阈值,计算你一个会话中的累计内存使用。