敏捷模式支持两节点部署
注意
当前
even-replicas仅在敏捷模式下生效;如果仅修改replication-mode = "even-replicas"但未按敏捷模式部署,属于未支持用法。
基本概念
阅读本文时,建议先区分以下概念:
SYNC:集群按双节点同步形态运行。ASYNC:集群已经进入单节点接管状态。arbiter:自动降级前的仲裁机制,用于判断发生故障后,哪一个节点可以自动接管服务。存活节点:当前仍可对外提供服务的节点。故障节点:当前发生故障、无法继续对外提供服务的节点。
概述
普通的基于 Raft 协议的双副本部署,不能容忍单副本故障,一个节点彻底失联后,另一个节点不能继续安全读写。
even-replicas 解决该场景下的基本思路如下:
- 正常情况下,集群以两个节点运行,状态为
SYNC。 - 当一个节点持续故障超过阈值,且另一个节点通过仲裁后,集群会切换到
ASYNC状态。 - 集群进入
ASYNC后,仅存活节点对外提供服务,故障节点不再提供服务。 - 故障节点恢复后,系统会持续检查恢复情况,持续尝试恢复到
SYNC状态。
部署与模式选择
了解两节点方案规划,建议先阅读以下文档:
- 两节点的拓扑模版和关键参数,请参考敏捷模式两节点部署拓扑。
- 各个仲裁模式的适用场景、选择建议和脚本仲裁示例,请参考敏捷模式两节点仲裁模式使用场景。
仲裁方式概览
even-replicas 支持三种仲裁方式:
| 类型 | 说明 |
|---|---|
preset | 使用固定主节点标签进行仲裁 |
service | 调用外部仲裁服务(Tiarbiter/TEM),该仲裁服务可由多套集群共享 |
custom-script | 调用本地脚本完成仲裁 |
关于各个仲裁模式的使用场景、选择建议,以及 custom-script 的编写逻辑与示例,请参考敏捷模式两节点仲裁模式使用场景。
状态与观测
查看复制模式状态
可通过以下接口查看状态:
curl "http://<pd>/pd/api/v1/replication_mode/status"SYNC 状态:
{
"mode": "even-replicas",
"even-replicas": {
"state": "SYNC"
}
}ASYNC 状态:
{
"mode": "even-replicas",
"even-replicas": {
"state": "ASYNC",
"available_label": "dc1",
"replay_progress": 0.42
}
}其中:
available_label用于表示当前集群在 ASYNC 降级状态下,哪一个节点还在继续提供服务replay_progress用于表示同步恢复进度。
运维手段 force-degrade
接口说明
系统提供一个本地 unsafe 运维 API,可用于对目标存活节点发起强制降级请求:
POST /pd/api/v1/admin/unsafe/even-replicas/force-degrade
该接口必须直接请求目标 PD 节点,由目标节点本地处理。
注意
手动
force-degrade会跳过仲裁审批,但不会绕过故障判定,也不会绕过downgrade-timeout。
请求参数
请求体如下:
{
"target_label": "dc1",
"timeout": 600
}说明:
target_label:必填;必须等于当前收到请求的 PD 节点本地 label。timeout:可选;单位为秒;默认600。
备注:
- 应当将请求直接发送到需要降级的 PD 节点端口。
- 不要依赖随机负载均衡入口。
接口行为
接口可能阻塞数秒到数分钟,降级流程开始时返回 200 OK。
常见返回码
| 返回码 | 说明 |
|---|---|
200 OK | TiKV downgrade 已经启动;不代表所有 Region 已经恢复完成 |
400 Bad Request | 参数非法,例如 target_label 为空或与当前节点本地 label 不匹配 |
409 Conflict | 当前已有另一个 force-degrade 在执行,或 unsafe recovery 已在运行 |
412 Precondition Failed | 当前不在 even-replicas 模式,或 placement rule 尚未就绪 / 配置非法 |
500 Internal Server Error | 其他内部错误 |
在线配置修改与限制
placement rule 写操作限制
在 even-replicas 模式下,placement rule 仅支持查询,不支持热更新,以下 placement rule 写接口会直接返回 412 Precondition Failed:
POST /pd/api/v1/config/rulePOST /pd/api/v1/config/rulesPOST /pd/api/v1/config/rules/batchDELETE /pd/api/v1/config/rule/{group}/{id}POST /pd/api/v1/config/rule_groupDELETE /pd/api/v1/config/rule_group/{id}POST /pd/api/v1/config/placement-rulePOST /pd/api/v1/config/placement-rule/{group}DELETE /pd/api/v1/config/placement-rule/{group}
其他在线修改限制
在 even-replicas 模式下,除 placement rule 写操作外,还存在以下在线修改限制:
/config/replication:不支持在线修改enable-placement-rules、max-replicas、location-labels、isolation-level。/config/replication-mode:不支持在线修改replication-mode.even-replicas.downgrade-timeout、replication-mode.even-replicas.arbitration及其所有子字段。/config/replication-mode:不支持在运行时把复制模式从majority/dr-auto-sync切换到even-replicas,或从even-replicas切回其他模式。