可以尝试在生产集群 prometheus 目录下修改 conf/tikv.rules.yml,在红框中补全如下内容,然后重启下 prometheus:
sum(increase(tikv_gcworker_gc_tasks_vec{task="gc"}[1d])) < 1 and sum(increase(tikv_gc_compaction_filter_perform[1d])) < 1
可以尝试在生产集群 prometheus 目录下修改 conf/tikv.rules.yml,在红框中补全如下内容,然后重启下 prometheus:
sum(increase(tikv_gcworker_gc_tasks_vec{task="gc"}[1d])) < 1 and sum(increase(tikv_gc_compaction_filter_perform[1d])) < 1
还是不行啊
那应该是在 5.1 中 pr 没有带上,只添加表达式不管用,具体可以再看下:
https://github.com/tikv/tikv/pull/9927/files
希望是这样吧,只是开发环境又没告警的,两个版本都是5.1,唉
不好意思,给您带来不便了
,后续如果新版本解决这个问题了,我们再同步下。
我今天看到5.1.1更新了,这个版本TiKV_GC_can_not_work解决了吗?还有一直报Server.Serve failed to create ServerTransport:这个日志的bug
稍等,我这边确认下。
请问下你目前集群版本还是 v5.1.0 吗?不知道是否方便升级到 v5.1.1,或者重新tiup cluster patch 下 prometheus ,怀疑是在之前升级的时候规则更新失败了,参考下:
https://docs.pingcap.com/zh/tidb/v4.0/tiup-component-cluster-patch#tiup-cluster-patch
可以升级的,只是我在看5.1.1 Release Notes没看到相关解决,更新了也白更新,这两个问题对我很困扰
不好意思,这个问题又确认了下在 v5.1 中应该是解决掉了,如果升级比较麻烦的话,可以先按照上面的方式重新 tiup cluster patch 下 prometheus ,看下是否还会有问题,多谢
我不太想单独更换某一个组件,我现在是5.1.0版本,如果5.1.1版本解决了我可以升级,我的是两个问题,一个是告警一个是日志。请问是哪个解决了,还是两个都解决了
1.日志里提示 grpc: Server.Serve failed to create ServerTransport ,在 github 上有相关的 issue: https://github.com/pingcap/tidb/issues/25117 ,目前应该还没修复,可以关注下这个 issue 进展;
2.GC 告警的问题重新确认了下,在 v5.1 中没有该问题,怀疑是之前升级时告警规则没有更新成功,你可以考虑升级或者直接重新 patch 下 prometheus 组件。
好的,我考虑下是升级还是patch
我刚才从5.1.0升级到了5.1.1。结果GC 告警的问题还是存在啊
麻烦再提供下最新的 gc leader 日志和监控面板信息,我们这边分析下是不是其他原因导致的,辛苦了。
1.gc leader:tidb.log (357.1 KB)
2.gc监控面板:
我是今天 10:47左右升级启动的集群
收到,我们这边尽快分析下。
麻烦反馈下集群在升级之后到目前时间段内如下监控指标数据:
监控面板 tikv-details -> RocksDB - kv/raft 中 Compaction operations 、Compaction duration、Compaction flow 和 Compaction pending bytes 这四个指标
谢谢!