BR备份到OSS,进度到94%的时候报错如下:是什么原因,该怎么解决,可以断点备份吗
06:29:25.176 +08:00] [WARN] [misc.go:209] [“received signal to exit”] [signal=hangup]
Socket error Event: 32 Error: 10053.
Connection closing…Socket close.
Connection closed by foreign host.
Disconnected from remote host(tidb-tiup) at 06:27:30.
纯白镇的小智
(Ti D Ber Qm Qja01 M)
2
结合 94% 进度报错的场景,核心原因主要有以下几类:
1. SSH 会话超时 / 中断(最常见)
- 你通过 SSH 登录 tidb-tiup 节点执行备份命令,但 SSH 客户端(如 Xshell/SecureCRT)或服务端配置了超时断开机制:
- 客户端层面:SSH 工具未开启 “保持连接”,长时间无终端输出(备份后期数据传输量大,终端无日志输出)触发超时。
- 服务端层面:Linux 节点的
sshd 配置(/etc/ssh/sshd_config)中 ClientAliveInterval/ClientAliveCountMax 过小,主动断开空闲连接。
- 备份耗时过长(94% 通常是最后大文件传输阶段),超出 SSH 会话的存活时间限制。
2. 网络层面限制
- OSS 端限流 / 连接数限制:阿里云 OSS 对单账号 / 单 IP 的上传连接数、带宽有阈值,备份后期高并发写入触发限流,主动关闭连接。
- 集群节点网络策略:TiDB 节点到 OSS 的网络被防火墙 / 安全组 / 代理中断(如传输超时、数据包过大被拦截)。
- TCP 连接超时:Linux 内核的 TCP 超时参数(如
tcp_keepalive_time)配置不合理,长连接未保活导致被断开。
3. 资源不足导致进程被终止
- 备份节点(tidb-tiup)的内存 / 磁盘 IO 耗尽:94% 阶段通常是合并大备份文件,内存不足触发 OOM killer,或磁盘 IO 100% 导致进程无响应,最终被系统终止(表现为 Socket 断开)。
小青年er
(Ti D Ber 3o7l Pnfm)
3
错误10053不是网络或防火墙拦截导致的断开连接吗
小龙虾爱大龙虾
(Minghao Ren)
5
收到了 hangup 信号退出的,把任务放后台跑吧,用 nohup 试试
1 个赞
lmdb
(“One day my life will end, and you will wear the crown.")
6
后台操作
nohup br backup full --pd “…” --storage “…” > backup.log 2>&1 &