求助，prometheus 的进程突然cpu高，top sql 功能也没有打开

Raymond · 2026 年4 月 16 日 00:49

求助，prometheus 的进程突然cpu高，top sql 功能也没有打开
2.49.1 版本，大家有没有思路排查啊，之前好像可以抓取prometheus 快照的，类似tidb 节点的heap 这些

Raymond · 2026 年4 月 16 日 01:07

目前观察到的是cpu 升高的时候，node_exporter 监控到磁盘IOPS 延迟吞吐量全都上来了

Raymond · 2026 年4 月 16 日 01:42

dashboard的top sql，持续分析功能都没有开启，tidb集群版本是8.1.1

TiDBer_sheldon · 2026 年4 月 16 日 02:07

有没有其他人在查询？promethus数据库有多大了，磁盘占用高吗？

菩提老祖 · 2026 年4 月 16 日 02:13

把一个采集的干冒烟了。改过什么采集指标。
感觉是其他模块引起的

xfworld · 2026 年4 月 16 日 02:18

prometheus 就采集和存储数据，不会有太多的 cpu 瓶颈的

除非接入的数据太多，本身配置不够

独善其身 · 2026 年4 月 16 日 03:31

这就是prometheus的参数配置了吧

wbslxw · 2026 年4 月 16 日 05:32

看下慢查询有没有问题，还有检查下Prometheus 启动参数、配置文件

Raymond · 2026 年4 月 16 日 05:50

没改过采集指标

万仞听松 · 2026 年4 月 16 日 06:55

Prometheus有自己的日志吧，看看能发现什么吗

Raymond · 2026 年4 月 16 日 07:47

啥都没看到

Royce1220 · 2026 年4 月 16 日 08:38

是不是监控的数据突然增多了

TiDBer_Ejh0eCXc · 2026 年4 月 16 日 23:17

可能是大量的 Empty Region 导致了监控指标基数过大

TiDBer_xx13 · 2026 年4 月 17 日 01:55

是业务高峰期吗

DBRE · 2026 年4 月 17 日 02:53

grafana把时间拉得很长来查看数据，Prometheus压力会很大吧

xfworld · 2026 年4 月 17 日 04:30

prometheus 存不了那么久的数据咯

TiDBer_ohQud1vx · 2026 年4 月 17 日 06:47

找到 Prometheus 进程ID，找到 CPU 占用率最高的那个线程，获取 Prometheus 快照，再分析

Royce1220 · 2026 年4 月 17 日 09:31

保存的粒度不一样吧

Royce1220 · 2026 年4 月 17 日 09:31

拉长说明只有粗粒度的指标还在保存了

DBRE · 2026 年4 月 18 日 01:01

duration这种histogram类型的也是吗？时间拉长的话很慢