PD节点无法启动

随缘天空 · 2026 年3 月 23 日 03:38

【TiDB 使用环境】生产环境
【TiDB 版本】V7.1.1
【部署方式】物理机
【操作系统/CPU 架构/芯片详情】centos7.9
【机器部署详情】32核、64G
【集群节点数】3
【问题复现路径】正常跑了2年的集群信息，上周末突然出现一个pd节点挂掉(无法正常访问)，然后用xshell工具连接该pd服务器，出现如图所示错误

尝试的操作:使用命令（tiup-cluster restart tidb-prod -N xx.xx.xx.xx:2379
）重启了该pd节点，但是启动失败，对应的日志文件也没有日志信息

今天重启的，但是没有23号的日志，只有上周20号的日志

Kongdom · 2026 年3 月 23 日 03:43

这个报错的意思是之前有62次失败登录吧，不是tidb报错信息。不会是被攻击了吧。

TiDB_C罗 · 2026 年3 月 23 日 03:48

先扩个节点，再把这个节点下掉，慢慢研究是啥问题吧

随缘天空 · 2026 年3 月 23 日 03:51

还有什么好点的方案吗

Royce1220 · 2026 年3 月 23 日 05:42

这个报错不是tidb的问题吧

Royce1220 · 2026 年3 月 23 日 05:42

启动问题可以看下下面那个tiup日志的详细信息

yg_2024 · 2026 年3 月 23 日 05:51

操作系统日志里有什么报错吗？

随缘天空 · 2026 年3 月 23 日 05:55

我感觉也不像tidb的问题，但是目前也没有详细日志可以看

Royce1220 · 2026 年3 月 23 日 05:58

tiup的verbose模式的日志也没有啥信息吗

随缘天空 · 2026 年3 月 23 日 06:11

没有详细的信息，只有一个请求pd服务失败的日志，详细日志还是让查看pd节点服务器所在的节点，但是该节点没有今天的日志，感觉是没有写权限。另外有一个超时的信息，大致如下：timed out waiting for port 2379 to be started after 2m0s",
“errorVerbose”: “timed out waiting for port 2379 to be started after 2m0s\ngithub.com/pingcap/tiup/pkg/cluster/module.(*WaitFor).Execute\n\tgithub.com/pingcap/tiup/pkg/cluster/module/wait_for.go:91\ngithub.com/pingcap/tiup/pkg/cluster/spec.PortStarted\n\tgithub.com/pingcap/tiup/pkg/cluster/spec/instance.go:121\ngithub.com/pingcap/tiup/pkg/cluster/spec.(*BaseInstance).Ready\n\tgithub.com/pingcap/tiup/pkg/cluster/spec/instance.go:154\ngithub.com/pingcap/tiup/pkg/cluster/operation.startInstance\n\tgithub.com/pingcap/tiup/pkg/cluster/operation/action.go:405\ngithub.com/pingcap/tiup/pkg/cluster/operation.StartComponent.func1\n\tgithub.com/pingcap/tiup/pkg/cluster/operation/action.go:534\ngolang.org/x/sync/errgroup.(*Group).Go.func1\n\tgolang.org/x/sync@v0.1.0/errgroup/errgroup.go:75\nruntime.goexit\n\truntime/asm_amd64.s:1594\n
failed to start: xx.xx.xx.xx pd-2379.service, please check the instance’s log(/data/tidb-deploy/pd-2379/log) for more detail.\nfailed to start pd\nfailed to start”}

Royce1220 · 2026 年3 月 23 日 06:24

日志都没有记录，那操作系统有啥异常吗

随缘天空 · 2026 年3 月 23 日 06:26

没有，目前操作系统好像是可以正常用的

纯白镇的小智 · 2026 年3 月 23 日 06:53

这个应该是无关紧要的报错信息

TiDBer_Lisjaper · 2026 年3 月 23 日 08:03

可以去pd的部署目录下面，有个scripts目录，bash -x run_pd.sh执行一下，抛出的错误比较清晰。

Royce1220 · 2026 年3 月 23 日 08:52

操作系统日志也是正常的吗，数据库就算启动报错应该也会记录日志的呀

随缘天空 · 2026 年3 月 23 日 10:19

没有，不是攻击的问题。是服务器磁盘损坏/文件系统损坏导致的

Qiuchi · 2026 年3 月 23 日 11:06

这个不是报错node disk readonly了么，磁盘的问题吧，看看是数据盘还是系统盘

Royce1220 · 2026 年3 月 23 日 14:42

那就是操作系统的文件或者磁盘还是有问题呀

TiDBer_vk5zr8fc · 2026 年3 月 23 日 22:12

磁盘问题

TiDBer_Ejh0eCXc · 2026 年3 月 23 日 23:08

检查服务器物理状态 ：确认服务器是否已开机，电源、网络连接是否正常