求助kv节点slow-score=100怎么办

TiDBer_zlOuqDjy · 2025 年3 月 4 日 16:01

各个监控指标看起来41节点都不正常

查看kv41的日志，最新信息有这个。

grep了一下error，好像基本都是和32节点和37节点有关。32和37节点都是异常节点，32节点目前pending offline ,37节点的物理机坏了。不过我去看一个其他slow-score=1的节点的日志，error相关日志也是与32和37节点有关。

求助，我目前该如何解决41节点slow-score=100的问题。我今晚又扩容了一个SSD和机械，SSD4个小时移过来了40G正常吗？

有猫万事足 · 2025 年3 月 4 日 16:14

41我感觉可以先不管，先把32的pending offline的问题解决掉。参考上面这个帖子把缩容速度调大点。

里面给出的例子中的数值是5，注意不要照搬，改成500，让缩容速度快点。另外例子中单独指定store id的方式现在也别研究了。直接all，都调大点，pending offline的问题有个结果再说。

pd-ctl的安装看

TiDBer_zlOuqDjy · 2025 年3 月 4 日 16:37

我刚刚发现 32对应的store id的remove -peer之前已经被调过了

39节点offline，然后只剩一个region一直卡在那里，这个要先解决吗

TiDBer_zlOuqDjy · 2025 年3 月 4 日 16:52

老师，我select查找到了kv39节点仅剩的那个region_id是795615795，我直接执行命令pd-ctl operator add remove-peer 795615795 795615795 可以吗？

乡在人间 · 2025 年3 月 5 日 01:40

kv 39节点最好也先解决，一步一步排除异常，缩小范围。

舞动梦灵 · 2025 年3 月 5 日 03:28

剩下1个两个直接收缩
tiup cluster scale-in 这个收缩，你怎么有operator add remove-peer这个操作？
我收缩都是先store weight xx 0 0 等region数量剩下10左右，直接scale-in 收缩掉就没了。

WalterWj · 2025 年3 月 6 日 09:43

可以考虑用 pd-ctl 临时删除 slow store 机制。