tidb集群突然不可用

【 TiDB 使用环境】生产环境
【 TiDB 版本】 v5.4.0
【复现路径】
【遇到的问题:问题现象及影响】
业务突然报障,说tidb集群不可用,上去tiup display 发现有一个kv节点disconnect ,然后重启这个节点也还是disconnt,10分后恢复。

kv节点的日志信息:
[2023/12/20 12:48:21.858 +08:00] [WARN] [gc_worker.rs:606] [“GcKeys fail”] [err=“Error(Other("[src/server/gc_worker/gc_worker.rs:341]: [components/raftstore/src/coprocessor/region_info_accessor.rs:622]: failed to send request to region collector: channel has been closed"))”]
[2023/12/20 12:48:21.858 +08:00] [WARN] [gc_worker.rs:606] [“GcKeys fail”] [err=“Error(Other("[src/server/gc_worker/gc_worker.rs:341]: [components/raftstore/src/coprocessor/region_info_accessor.rs:622]: failed to send request to region collector: channel has been closed"))”]
[2023/12/20 12:48:21.858 +08:00] [WARN] [gc_worker.rs:606] [“GcKeys fail”] [err=“Error(Other("[src/server/gc_worker/gc_worker.rs:341]: [components/raftstore/src/coprocessor/region_info_accessor.rs:622]: failed to send request to region collector: channel has been closed"))”]
[2023/12/20 12:48:21.858 +08:00] [WARN] [gc_worker.rs:606] [“GcKeys fail”] [err=“Error(Other("[src/server/gc_worker/gc_worker.rs:341]: [components/raftstore/src/coprocessor/region_info_accessor.rs:622]: failed to send request to region collector: channel has been closed"))”]
[2023/12/20 12:48:21.858 +08:00] [WARN] [gc_worker.rs:606] [“GcKeys fail”] [err=“Error(Other("[src/server/gc_worker/gc_worker.rs:341]: [components/raftstore/src/coprocessor/region_info_accessor.rs:622]: failed to send request to region collector: channel has been closed"))”]

是一直不可用还是一瞬间连接异常?

自动恢复有什么日志提示吗?

看下断联期间到该机器的网络监控等

1 个赞

看下那台机器有没有异常操作

系统日志有啥内容吗

这是多少个tikv实例?自定义用了多少副本。这种情况感觉是和pd网络连接问题。或者region分布失衡。

嗯,正常不应该一个节点有问题就导致业务报障

几个tikv节点呢?

1.网络状态查看,是否有网络问题
2.检查日志,收集集群信息
3.是否有特殊异常信息

这么多节点,异常一个就不可用了?

当tidb集群遇到性能瓶颈时,是增加原有机器的配置还是增加实例数。中庸些说,需要针对情况找一个平衡点。仅仅看截图,个人感觉题主的kv节点太多了。反而运维起来可能更麻烦,或者不好定位问题。

据用户反馈,问题已定位

只一个节点出故障不应该影响整个集群啊,是不是leader都集中到这个节点了

你的tikv几十个节点呢,单点故障不应该影响集群服务啊,有没有做重启集群的操作或者其他特殊操作

网络问题把???还是IO响应太慢了

这么多节点,感觉减少节点数量,增加单个tikv配置吧

已恢复,网络问题

检查一下主机的连接情况

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。