大家有用过promQL查询监控指标吗

【TiDB 使用环境】生产环境
【TiDB 版本】6.5.10
【操作系统】Kylin
我想实现自动化运维,但我们无法直接访问生产环境,想要拿到生产的监控数据,只能把监控数据主动推送到一台特定的服务器上。这意味着我无法使用grafana查看监控指标了,所以我想用promtool命令行来自助查询,计算prometheus的监控指标。但预设的监控指标太多复杂了,有没有大神帮我看看如何实现以下监控指标?
我想做的指标有:节点运行状态,节点服务状态,PD Leader稳定状态,tikv磁盘错误次数,Region数量,Region分布情况,Region副本异常状态(如存在缺副本、多副本、离线副本等),时间戳(TSO)获取延迟情况,本日数据库连接数平均值,本日数据库连接数峰值,SQL查询执行时间峰值,慢查询数量,查询吞吐量,事务提交率,长时间事务数量,事务回滚率,事务冲突情况,锁等待数量,锁等待持续时间,锁冲突次数,GC启用状态,GC执行频率,GC持续时间,安全点推进情况

如果你能把数据主动推送到一个特定的服务器上,那是否可以在特定的服务器上部署一个grafana,然后配置远端的prometheus?

去grafana找到对应监控的指标的promQL,然后定期调用Prometheus的api执行promQL,将数据推送到目标地址即可。

:thinking:自己重新实现的话,只能去扒官方prometheus里的指标去设置,费事费力。不如直接在中间环境建个prometheus方便。
https://docs.pingcap.com/zh/tidb/stable/deploy-monitoring-services/

那个服务器不是我能操作的,只能按特定的要求把数据推送过去

确实是一个好思路,官方文档有grafana里面每一项指标的定义吗,光看指标名字不知道是否跟技术口径一致的

我是打算用集群已有的监控指标直接封装推送,应该不用另外搭建环境了

看着需求和这个文档很像,最终还是实现了使用Grafana查看。

有指标的简单解释,可以对比参考
https://docs.pingcap.com/zh/tidb/stable/grafana-overview-dashboard/#overview-面板重要监控指标详解

还是比较偏向部署安装操作,我更倾向于使用现有的grafana指标,只是不知道grafana那一堆指标我要还原成promQL

这个是原子指标的定义吧,这个感觉可以参考用!

不是原始的metric,是基于metric的promQL了,文档说的也是grafana面板指标的含义。
原始的metric需要请求各个组件的metric接口看help,但是help也不详细。