最近在开发一个tidb和MySQL的监控平台,大家平常运维的时候有什么痛点嘛,比如prometheus自带的监控不能覆盖所有的监控需求,需要自己额外监控的,各位老师可以指点下,我看能不能做到平台里面去
- 全量 SQL 审计(非慢查询也抓)
- 锁等待现场自动捕获
- TiDB 热点表自动定位
- 长事务 / 大事务实时监控
- 复制 / 同步延迟根因分析
- 表空间增长预测
- 索引健康度扫描(无主键、冗余索引)
- 统一安全 SQL 查询窗口
- 一键巡检 + 健康评分
- 多集群统一大盘
1 个赞
TiDB/MySQL 慢查询、锁等待、连接数突增、磁盘 inode、热点表、备份校验、TiDB 调度异常,这些原生监控覆盖不足,很适合集成。
1.热点表 / 热点行 检测与定位
2. 大事务 / 长事务 实时监控
3. GC 进度与锁冲突监控
4. Region 调度异常 & 副本异常
zabbix配置模板啊,无非就是进程级别、网络级别、sql级别、存储级别的监控,细致的性能方面监控还是需要自己写模板实现啊
能把审计功能加进去就yyds了
【审计和变更监控】
比如谁执行了 DDL、删库、改权限、改配置,这个可以采集就好了
还有TiDB/MySQL 配置被谁改了、什么时候改的、改了什么
【SQL全链路追踪】
指标异常(CPU 高、延迟高)→ 无法一键下钻到具体 SQL + 执行计划 + 锁等待
慢查询只有语句,没有执行用户、客户端 IP、扫描行数、内存使用、执行计划变化记录
哇,厉害啊, SQL 执行计划变更告警、应用连接池等待时间、死锁/写冲突频率等
故障排查耗时;误报多;Lightning 导入失败导致集群卡死。
对慢查询深入分析,语句消耗的资源,时间分布以及当时的CPU\内存\IO消耗情况,当时其他的语句资源消耗情况。执行计划分析、统计信息情况等等