集群一共有三个pd，有两个pd启动失败导致整个集群启动失败

TiDBer_Vxu5rxne · 2023 年7 月 5 日 00:58

【 TiDB 使用环境】pre环境
【 TiDB 版本】v5.0.1
【复现路径】tiup cluster display tidb-pre
【遇到的问题：问题现象及影响】有两个pd未启动，查看日志如下： [ERROR] [etcdutil.go:71] [“failed to get cluster from remote”] [error=“[PD:etcd:ErrEtcdGetCluster]could not retrieve cluster information from the given URLs”]
【资源配置】无法进入到 TiDB Dashboard
【附件：截图/日志/监控】

h5n1 · 2023 年7 月 5 日 01:05

做过啥操作， tiup cluster display tidb-pre 结果， pd 的deploy目录下 run_pd.sh的脚本内容贴下

redgame · 2023 年7 月 5 日 01:20

确保PD节点与Etcd集群可以正常通信。检查防火墙设置、网络配置等是否正确，并确保PD节点可以访问Etcd集群的URL

tidb菜鸟一只 · 2023 年7 月 5 日 01:24

三个pd挂了两个，尝试用pd-cover恢复一下
https://docs.pingcap.com/zh/tidb/stable/pd-recover#pd-recover-使用文档

zhanggame1 · 2023 年7 月 5 日 01:24

看起来的网不同，查查防火墙设置，网络连接

mono · 2023 年7 月 5 日 01:26

启动顺序是先启动pd。先排除掉网络通信方面的问题。如果没问题，尝试用工具修复pd节点。

TiDBer_Vxu5rxne · 2023 年7 月 5 日 01:49

#!/bin/bash
set -e

WARNING: This file was auto-generated. Do not edit!

All your edit might be overwritten!

DEPLOY_DIR=/home/tidb/data/deploy/pd-2379

cd “${DEPLOY_DIR}” || exit 1
exec bin/pd-server
–name=“pd-10.8.221.119-2379”
–client-urls=“http://0.0.0.0:2379”
–advertise-client-urls=“http://10.8.221.119:2379”
–peer-urls=“http://0.0.0.0:2380”
–advertise-peer-urls=“http://10.8.221.119:2380”
–data-dir=“/home/tidb/data/tidb/pd-2379”
–initial-cluster=“pd-10.8.221.119-2379=http://10.8.221.119:2380,pd-10.8.221.120-2379=http://10.8.221.120:2380,pd-10.8.221.121-2379=http://10.8.221.121:2380”
–config=conf/pd.toml
–log-file=“/home/tidb/data/deploy/pd-2379/log/pd.log” 2>> “/home/tidb/data/deploy/pd-2379/log/pd_stderr.log”

像风一样的男子 · 2023 年7 月 5 日 01:52

手动启动下pd看看报错

TiDBer_Vxu5rxne · 2023 年7 月 5 日 01:52

之前是没问题的，最近发现数据库连接不上，登录服务器查看数据库集群状态，发现两个pd状态为down，重启集群也是这个状态，查看日志显示[ERROR] [etcdutil.go:71] [“failed to get cluster from remote”] [error=“[PD:etcd:ErrEtcdGetCluster]could not retrieve cluster information from the given URLs”]

TiDBer_Vxu5rxne · 2023 年7 月 5 日 01:53

OK，我试试看，谢谢。

tidb狂热爱好者 · 2023 年7 月 5 日 02:49

感觉到你的网络不通

TiDBer_Vxu5rxne · 2023 年7 月 5 日 03:39

之前是没问题是，数据库突然访问不了，排查才发现是pd启动失败

h5n1 · 2023 年7 月 5 日 03:49

这结果能贴下不

zhouzeru · 2023 年7 月 5 日 09:50

这个问题可能是由于 PD 节点无法正常启动或者连接到 ETCD 集群导致的