报警TiKV_GC_can_not_work,但是按官方文档查看又查不到相关日志进行定位

这是 RocksDB - kv的


这是RocksDB - raft的


好的,收到

目前看下来还是 tikv_gc_can_not_work 的告警规则设计的有点问题,没有把 compaction 发生的次数考虑进去,麻烦先临时按照下面方式调整下告警规则:
1.修改 prometheus 的告警配置文件,路径位于 {deploy_dir}/conf/tikv.rules.yml ,在告警项 TiKV_GC_can_not_work 添加上 sum(increase(tikv_engine_event _total{db="kv", cf="write", type="compaction"}[1d])) >= 1 ,改完之后表达式如下:


2.重启下 prometheus: tiup cluster restart {cluster-name} -R prometheus
3.然后观察一天,看下告警是否会消失。

好的,我现在已经按你的方式修改了,现在告警消失了,我再观察一天,到时候再结果跟你说下:+1:

截至到现在,没有再出现告警了

好的,目前已经有 PR 在修复了:https://github.com/tikv/tikv/pull/10661 ,谢谢支持!

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。