求助,prometheus 的进程突然cpu高,top sql 功能也没有打开

求助,prometheus 的进程突然cpu高,top sql 功能也没有打开
2.49.1 版本,大家有没有思路排查啊,之前好像可以抓取prometheus 快照的,类似tidb 节点的heap 这些

目前观察到的是cpu 升高的时候,node_exporter 监控到 磁盘IOPS 延迟 吞吐量全都上来了

dashboard的top sql,持续分析功能都没有开启,tidb集群版本是8.1.1

有没有其他人在查询?promethus数据库有多大了,磁盘占用高吗?

把一个采集的干冒烟了。改过什么采集指标。
感觉是其他模块引起的

prometheus 就采集和存储数据,不会有太多的 cpu 瓶颈的

除非接入的数据太多,本身配置不够

这就是prometheus的参数配置了吧

看下慢查询有没有问题,还有检查下Prometheus 启动参数、配置文件

没改过采集指标

Prometheus有自己的日志吧,看看能发现什么吗

啥都没看到

是不是监控的数据突然增多了

可能是大量的 Empty Region 导致了监控指标基数过大

是业务高峰期吗

grafana把时间拉得很长来查看数据,Prometheus压力会很大吧

prometheus 存不了那么久的数据咯

找到 Prometheus 进程ID,找到 CPU 占用率最高的那个线程, 获取 Prometheus 快照,再分析

保存的粒度不一样吧

拉长说明只有粗粒度的指标还在保存了

duration这种histogram类型的也是吗?时间拉长的话很慢