大家有用过promQL查询监控指标吗

Szekin · 2025 年7 月 25 日 12:31

【TiDB 使用环境】生产环境
【TiDB 版本】6.5.10
【操作系统】Kylin
我想实现自动化运维，但我们无法直接访问生产环境，想要拿到生产的监控数据，只能把监控数据主动推送到一台特定的服务器上。这意味着我无法使用grafana查看监控指标了，所以我想用promtool命令行来自助查询，计算prometheus的监控指标。但预设的监控指标太多复杂了，有没有大神帮我看看如何实现以下监控指标？
我想做的指标有：节点运行状态，节点服务状态，PD Leader稳定状态，tikv磁盘错误次数，Region数量，Region分布情况，Region副本异常状态（如存在缺副本、多副本、离线副本等），时间戳（TSO)获取延迟情况，本日数据库连接数平均值，本日数据库连接数峰值，SQL查询执行时间峰值，慢查询数量，查询吞吐量，事务提交率，长时间事务数量，事务回滚率，事务冲突情况，锁等待数量，锁等待持续时间，锁冲突次数，GC启用状态，GC执行频率，GC持续时间，安全点推进情况

Miracle · 2025 年7 月 25 日 12:44

如果你能把数据主动推送到一个特定的服务器上，那是否可以在特定的服务器上部署一个grafana，然后配置远端的prometheus？

DBRE · 2025 年7 月 26 日 00:50

去grafana找到对应监控的指标的promQL，然后定期调用Prometheus的api执行promQL，将数据推送到目标地址即可。

Kongdom · 2025 年7 月 27 日 06:33

自己重新实现的话，只能去扒官方prometheus里的指标去设置，费事费力。不如直接在中间环境建个prometheus方便。
https://docs.pingcap.com/zh/tidb/stable/deploy-monitoring-services/

Szekin · 2025 年7 月 27 日 16:17

那个服务器不是我能操作的，只能按特定的要求把数据推送过去

Szekin · 2025 年7 月 27 日 16:18

确实是一个好思路，官方文档有grafana里面每一项指标的定义吗，光看指标名字不知道是否跟技术口径一致的

Szekin · 2025 年7 月 27 日 16:21

我是打算用集群已有的监控指标直接封装推送，应该不用另外搭建环境了

yg_2024 · 2025 年7 月 28 日 00:57

看着需求和这个文档很像，最终还是实现了使用Grafana查看。

DBRE · 2025 年7 月 28 日 01:10

有指标的简单解释，可以对比参考
https://docs.pingcap.com/zh/tidb/stable/grafana-overview-dashboard/#overview-面板重要监控指标详解

Szekin · 2025 年7 月 28 日 08:11

还是比较偏向部署安装操作，我更倾向于使用现有的grafana指标，只是不知道grafana那一堆指标我要还原成promQL

Szekin · 2025 年7 月 28 日 08:12

这个是原子指标的定义吧，这个感觉可以参考用！

DBRE · 2025 年7 月 28 日 10:16

不是原始的metric，是基于metric的promQL了，文档说的也是grafana面板指标的含义。
原始的metric需要请求各个组件的metric接口看help，但是help也不详细。