前两天缩容扩容之后突然发现region相关监控不为0

舞动梦灵 · 2025 年8 月 18 日 07:10

我记得pending-peer-region-count、extra-peer-region-count 这几个我记得之前都是0的。现在都涨了。这个有问题吗
做过的操作：上周缩容1台机器，然后扩容一台机器。没有做其他操作了。

Kongdom · 2025 年8 月 18 日 09:17

看官方文档，应该和扩缩容有关系。

舞动梦灵 · 2025 年8 月 18 日 09:45

我也看过这个文档，就是不太理解他说的如果持续很高。这个很高是多少。我这里是一只是3-5.对于之前一直是0来说应该是高了吧。

TiDBer_xTvoCh2f · 2025 年8 月 18 日 10:28

应该算很高了，不减少

Kongdom · 2025 年8 月 19 日 02:37

之前max是4k，现在是3，应该是降低了，剩下这个3个可能是learner吧？

舞动梦灵 · 2025 年8 月 19 日 02:42

k级别的就是一闪而过，这是刚查的最近12小时内的数据。目前一直在1-4之间反复横跳。3个是leader，是什么意思，能消除吗。

舞动梦灵 · 2025 年8 月 19 日 02:44

最近1小时的。有0也有非0的。0-4之间

Kongdom · 2025 年8 月 19 日 02:47

标准三副本中，tikv有1个leader副本，2个follower副本，tiflash有1个learner副本。

Kongdom · 2025 年8 月 19 日 02:50

这个pending还真有可能就是指的tiflash的副本和tikv的有差距。不过才几个，应该是正常范围内。
https://docs.pingcap.com/zh/tidb/stable/glossary/#pendingdown

Kongdom · 2025 年8 月 19 日 02:51

应该是扩缩容那个时间点的吧。

舞动梦灵 · 2025 年8 月 19 日 03:05

我这没有tiflash。一闪而过的。时间点差不多就是我扩容、和缩容的时间，但是也几个不是执行扩容缩容的时间点。那按照这个理解，就是我tikv服务器写入速度慢。也会导致有pending，写入速度慢，导致follower的raft log和ledaer有一点差距

Kongdom · 2025 年8 月 19 日 03:34

不可能吧，learner就是tiflash啊。会不会是之前有，但是强制下线了？

舞动梦灵 · 2025 年8 月 19 日 05:39

没有。从来没有部署过tiflush。只有 tidb/pd/tikv /timon，上周强制下线了一个是一个tikv服务器。他down了两天才发现。后面把他缩容掉了。

tidb菜鸟一只 · 2025 年8 月 19 日 07:31

个位数的话感觉不影响，可以进入pdctl命令行
使用region check miss-peer等命令检查各种异常peer的情况

舞动梦灵 · 2025 年8 月 19 日 09:29

执行了这个命令：region check miss-peer
一大堆。一直刷

tidb菜鸟一只 · 2025 年8 月 20 日 07:49

https://docs.pingcap.com/zh/tidb/v6.5/pd-control/#region-check-miss-peer--extra-peer--down-peer--pending-peer--offline-peer--empty-region--hist-size--hist-keys---jqquery-string
我的意思你检查你异常的region情况，但是你监控上miss-peer是0啊，
region check pending-peer或者region check extra-peer
你执行这个呢？

舞动梦灵 · 2025 年8 月 20 日 07:57

执行好几次，这两个结果都是一会是0一会有输出数据

tidb菜鸟一只 · 2025 年8 月 21 日 00:59

找到对应的region之后，可以去information_schema.tikv_region_status里面看下对应的是哪个表，确认下使用没问题就行了，因为你的region都是3副本的，如果其中有一个副本Pending了，或者例如调度出错，多了一个副本，自动调度会很快补充异常的副本或者删除多出的副本，所以一会是0，一会有数据

舞动梦灵 · 2025 年8 月 21 日 01:30

他会一直变。前一秒差的region id 是1.手动去navciate登录检查他就是3个副本。正常的。再去pdctl里面检查就是0 。在检查他就是region id 2了。对应的表也是不一样的。可能就是因为一直在调度，一直在转移peer产生的。
我直接手动在navicate里面gourp by region_id 也能看到有4副本的。再查他就变了。

tidb菜鸟一只 · 2025 年8 月 21 日 02:22

我感觉不太需要处理这点数据，不影响使用。如果有长期缺失副本，或者多副本，或者pending副本，再通过ptclt去人工干预即可。