集群一共有三个pd,有两个pd启动失败导致整个集群启动失败

【 TiDB 使用环境】pre环境
【 TiDB 版本】v5.0.1
【复现路径】tiup cluster display tidb-pre
【遇到的问题:问题现象及影响】有两个pd未启动,查看日志如下: [ERROR] [etcdutil.go:71] [“failed to get cluster from remote”] [error=“[PD:etcd:ErrEtcdGetCluster]could not retrieve cluster information from the given URLs”]
【资源配置】无法进入到 TiDB Dashboard
【附件:截图/日志/监控】

做过啥操作 , tiup cluster display tidb-pre 结果, pd 的deploy目录下 run_pd.sh的脚本内容贴下

确保PD节点与Etcd集群可以正常通信。检查防火墙设置、网络配置等是否正确,并确保PD节点可以访问Etcd集群的URL

三个pd挂了两个,尝试用pd-cover恢复一下
https://docs.pingcap.com/zh/tidb/stable/pd-recover#pd-recover-使用文档

看起来的网不同,查查防火墙设置,网络连接

启动顺序是先启动pd。先排除掉网络通信方面的问题。如果没问题,尝试用工具修复pd节点。

#!/bin/bash
set -e

WARNING: This file was auto-generated. Do not edit!

All your edit might be overwritten!

DEPLOY_DIR=/home/tidb/data/deploy/pd-2379

cd “${DEPLOY_DIR}” || exit 1
exec bin/pd-server
–name=“pd-10.8.221.119-2379”
–client-urls=“http://0.0.0.0:2379
–advertise-client-urls=“http://10.8.221.119:2379
–peer-urls=“http://0.0.0.0:2380
–advertise-peer-urls=“http://10.8.221.119:2380
–data-dir=“/home/tidb/data/tidb/pd-2379”
–initial-cluster=“pd-10.8.221.119-2379=http://10.8.221.119:2380,pd-10.8.221.120-2379=http://10.8.221.120:2380,pd-10.8.221.121-2379=http://10.8.221.121:2380
–config=conf/pd.toml
–log-file=“/home/tidb/data/deploy/pd-2379/log/pd.log” 2>> “/home/tidb/data/deploy/pd-2379/log/pd_stderr.log”

手动启动下pd看看报错

之前是没问题的,最近发现数据库连接不上,登录服务器查看数据库集群状态,发现两个pd状态为down,重启集群也是这个状态,查看日志显示[ERROR] [etcdutil.go:71] [“failed to get cluster from remote”] [error=“[PD:etcd:ErrEtcdGetCluster]could not retrieve cluster information from the given URLs”]

OK,我试试看,谢谢。

感觉到你的网络不通

之前是没问题是,数据库突然访问不了,排查才发现是pd启动失败

这结果能贴下不

这个问题可能是由于 PD 节点无法正常启动或者连接到 ETCD 集群导致的