现象
tikv磁盘故障需更换硬盘,执行 tiup cluster scale-in ${cluster_name} -N tikv:port 操作后,经过数小时后,tikv一直处在offline状态,查看region health监控面板发现存在1个down-peer-region-count、learner-peer-region-count的情况,该集群没有tiflash组件,tikv实例数及磁盘空间充足。

排查
通过如下命令检查region的状态
tiup ctl:v4.0.12 pd http://pd ip:2379 region check down-peer

发现该region已经选出leader,存在4个peer,其中有一个为learner,这种情况就需要手动处理learner peer
再通过如下命令检查learner peer是否属于缩容实例
tiup ctl:v4.0.12 pd http://pd_ip:2379 store 24
经确认确实属于缩容的tikv实例。
处理
手动删除learner peer
tiup ctl:v4.0.12 pd http://pd_ip:2379 operator add remove-peer 75197 24
等待tikv store变为tombstone状态后,执行 tiup cluster prune ${cluster_name} 完成缩容。
问题总结
一般正常情况下tikv缩容无需执行以上操作,以上方式仅用于已经选出leader但是leaner未自动删除的情况,此时需要手动删除该learner。