tikv节点Disconnected

有个tikv节点在集群中显示Disconnected


相关日志如下

麻烦帮看下,谢谢

有没有试过重启这个节点

没有,可以尝试重启吗

也可以确认一下是不是这两个bug

  • 存储层 IO 故障:磁盘坏道、挂载异常、IO 超时、磁盘满导致数据写入失败
  • 数据 / 元数据损坏:RocksDB 元数据损坏、Region 副本不一致、WAL 日志损坏
  • 系统环境异常:TZ 时区环境变量缺失(日志中 TZ is missing 警告)、系统时间异常、OOM 被系统强制 kill
  • 版本 Bug:v7.1.3 部分场景下的存储层异常触发熔断


重启看样子是失败了
日志还是报的一样的东西

看dmesg是有磁盘坏道的告警,但是不是当前日期的


机房看了下服务器磁盘的状态灯是正常的,带外口看了下磁盘状态也正常。

怎么定位是不是这两个bug呢

看下版本大小
如果高于修复版本 那一半就不是这bug

检查下时区配置是否正确配置Asia/Shanghai,时间对吗?

主要这些bug有没有关键信息可以用于定位的

版本就是7.1.3
image

检查该节点的 CPU、内存和磁盘 I/O 是否过载。系统资源耗尽可能导致 TiKV 进程无法及时响应心跳请求

检查 CPU 和内存

top

检查磁盘空间和 I/O

df -h
iostat -x 1

删除临时文件了吗

没有哦

重启这个tikv节点,无法恢复。
最后决定就是给这节点通过缩容,给踢出去。
准备后续再换个盘给扩容加进来

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。