tidb 监控平台需求

最近在开发一个tidb和MySQL的监控平台,大家平常运维的时候有什么痛点嘛,比如prometheus自带的监控不能覆盖所有的监控需求,需要自己额外监控的,各位老师可以指点下,我看能不能做到平台里面去

  • 全量 SQL 审计(非慢查询也抓)
  • 锁等待现场自动捕获
  • TiDB 热点表自动定位
  • 长事务 / 大事务实时监控
  • 复制 / 同步延迟根因分析
  • 表空间增长预测
  • 索引健康度扫描(无主键、冗余索引)
  • 统一安全 SQL 查询窗口
  • 一键巡检 + 健康评分
  • 多集群统一大盘
1 个赞

TiDB/MySQL 慢查询、锁等待、连接数突增、磁盘 inode、热点表、备份校验、TiDB 调度异常,这些原生监控覆盖不足,很适合集成。

1.热点表 / 热点行 检测与定位
2. 大事务 / 长事务 实时监控
3. GC 进度与锁冲突监控
4. Region 调度异常 & 副本异常

zabbix配置模板啊,无非就是进程级别、网络级别、sql级别、存储级别的监控,细致的性能方面监控还是需要自己写模板实现啊

能把审计功能加进去就yyds了

【审计和变更监控】

比如谁执行了 DDL、删库、改权限、改配置,这个可以采集就好了
还有TiDB/MySQL 配置被谁改了、什么时候改的、改了什么

【SQL全链路追踪】

指标异常(CPU 高、延迟高)→ 无法一键下钻到具体 SQL + 执行计划 + 锁等待
慢查询只有语句,没有执行用户、客户端 IP、扫描行数、内存使用、执行计划变化记录

哇,厉害啊, SQL 执行计划变更告警、应用连接池等待时间、死锁/写冲突频率等

故障排查耗时;误报多;Lightning 导入失败导致集群卡死。

对慢查询深入分析,语句消耗的资源,时间分布以及当时的CPU\内存\IO消耗情况,当时其他的语句资源消耗情况。执行计划分析、统计信息情况等等