PD节点无法启动

【TiDB 使用环境】生产环境
【TiDB 版本】V7.1.1
【部署方式】物理机
【操作系统/CPU 架构/芯片详情】centos7.9
【机器部署详情】32核、64G
【集群节点数】3
【问题复现路径】正常跑了2年的集群信息,上周末突然出现一个pd节点挂掉(无法正常访问),然后用xshell工具连接该pd服务器,出现如图所示错误

尝试的操作:使用命令(tiup-cluster restart tidb-prod -N xx.xx.xx.xx:2379
)重启了该pd节点,但是启动失败,对应的日志文件也没有日志信息


今天重启的,但是没有23号的日志,只有上周20号的日志

这个报错的意思是之前有62次失败登录吧,不是tidb报错信息。不会是被攻击了吧。

先扩个节点,再把这个节点下掉,慢慢研究是啥问题吧

还有什么好点的方案吗

这个报错不是tidb的问题吧

启动问题可以看下下面那个tiup日志的详细信息

操作系统日志里有什么报错吗?

我感觉也不像tidb的问题,但是目前也没有详细日志可以看

tiup的verbose模式的日志也没有啥信息吗

没有详细的信息,只有一个请求pd服务失败的日志,详细日志还是让查看pd节点服务器所在的节点,但是该节点没有今天的日志,感觉是没有写权限。另外有一个超时的信息,大致如下:timed out waiting for port 2379 to be started after 2m0s",
“errorVerbose”: “timed out waiting for port 2379 to be started after 2m0s\ngithub.com/pingcap/tiup/pkg/cluster/module.(*WaitFor).Execute\n\tgithub.com/pingcap/tiup/pkg/cluster/module/wait_for.go:91\ngithub.com/pingcap/tiup/pkg/cluster/spec.PortStarted\n\tgithub.com/pingcap/tiup/pkg/cluster/spec/instance.go:121\ngithub.com/pingcap/tiup/pkg/cluster/spec.(*BaseInstance).Ready\n\tgithub.com/pingcap/tiup/pkg/cluster/spec/instance.go:154\ngithub.com/pingcap/tiup/pkg/cluster/operation.startInstance\n\tgithub.com/pingcap/tiup/pkg/cluster/operation/action.go:405\ngithub.com/pingcap/tiup/pkg/cluster/operation.StartComponent.func1\n\tgithub.com/pingcap/tiup/pkg/cluster/operation/action.go:534\ngolang.org/x/sync/errgroup.(*Group).Go.func1\n\tgolang.org/x/sync@v0.1.0/errgroup/errgroup.go:75\nruntime.goexit\n\truntime/asm_amd64.s:1594\n
failed to start: xx.xx.xx.xx pd-2379.service, please check the instance’s log(/data/tidb-deploy/pd-2379/log) for more detail.\nfailed to start pd\nfailed to start”}

日志都没有记录,那操作系统有啥异常吗

没有,目前操作系统好像是可以正常用的

这个应该是无关紧要的报错信息

可以去pd的部署目录下面,有个scripts目录,bash -x run_pd.sh执行一下,抛出的错误比较清晰。

操作系统日志也是正常的吗,数据库就算启动报错应该也会记录日志的呀

没有,不是攻击的问题。是服务器磁盘损坏/文件系统损坏导致的

这个不是报错node disk readonly了么,磁盘的问题吧,看看是数据盘还是系统盘

那就是操作系统的文件或者磁盘还是有问题呀

磁盘问题

检查服务器物理状态 :确认服务器是否已开机,电源、网络连接是否正常