求助,prometheus 的进程突然cpu高,top sql 功能也没有打开
2.49.1 版本,大家有没有思路排查啊,之前好像可以抓取prometheus 快照的,类似tidb 节点的heap 这些
目前观察到的是cpu 升高的时候,node_exporter 监控到 磁盘IOPS 延迟 吞吐量全都上来了
dashboard的top sql,持续分析功能都没有开启,tidb集群版本是8.1.1
有没有其他人在查询?promethus数据库有多大了,磁盘占用高吗?
把一个采集的干冒烟了。改过什么采集指标。
感觉是其他模块引起的
prometheus 就采集和存储数据,不会有太多的 cpu 瓶颈的
除非接入的数据太多,本身配置不够
这就是prometheus的参数配置了吧
看下慢查询有没有问题,还有检查下Prometheus 启动参数、配置文件
没改过采集指标
Prometheus有自己的日志吧,看看能发现什么吗
啥都没看到
是不是监控的数据突然增多了
可能是大量的 Empty Region 导致了监控指标基数过大
是业务高峰期吗
grafana把时间拉得很长来查看数据,Prometheus压力会很大吧
1 个赞
prometheus 存不了那么久的数据咯
找到 Prometheus 进程ID,找到 CPU 占用率最高的那个线程, 获取 Prometheus 快照,再分析
保存的粒度不一样吧
拉长说明只有粗粒度的指标还在保存了
duration这种histogram类型的也是吗?时间拉长的话很慢