PingKai Logo下载

敏捷模式支持两节点部署

基本概念

阅读本文时,建议先区分以下概念:

  • SYNC:集群按双节点同步形态运行。
  • ASYNC:集群已经进入单节点接管状态。
  • arbiter:自动降级前的仲裁机制,用于判断发生故障后,哪一个节点可以自动接管服务。
  • 存活节点:当前仍可对外提供服务的节点。
  • 故障节点:当前发生故障、无法继续对外提供服务的节点。

概述

普通的基于 Raft 协议的双副本部署,不能容忍单副本故障,一个节点彻底失联后,另一个节点不能继续安全读写。

even-replicas 解决该场景下的基本思路如下:

  • 正常情况下,集群以两个节点运行,状态为 SYNC
  • 当一个节点持续故障超过阈值,且另一个节点通过仲裁后,集群会切换到 ASYNC 状态。
  • 集群进入 ASYNC 后,仅存活节点对外提供服务,故障节点不再提供服务。
  • 故障节点恢复后,系统会持续检查恢复情况,持续尝试恢复到 SYNC 状态。

部署与模式选择

了解两节点方案规划,建议先阅读以下文档:

仲裁方式概览

even-replicas 支持三种仲裁方式:

类型说明
preset使用固定主节点标签进行仲裁
service调用外部仲裁服务(Tiarbiter/TEM),该仲裁服务可由多套集群共享
custom-script调用本地脚本完成仲裁

关于各个仲裁模式的使用场景、选择建议,以及 custom-script 的编写逻辑与示例,请参考敏捷模式两节点仲裁模式使用场景

状态与观测

查看复制模式状态

可通过以下接口查看状态:

curl "http://<pd>/pd/api/v1/replication_mode/status"

SYNC 状态:

{
  "mode": "even-replicas",
  "even-replicas": {
    "state": "SYNC"
  }
}

ASYNC 状态:

{
  "mode": "even-replicas",
  "even-replicas": {
    "state": "ASYNC",
    "available_label": "dc1",
    "replay_progress": 0.42
  }
}

其中:

  • available_label 用于表示当前集群在 ASYNC 降级状态下,哪一个节点还在继续提供服务
  • replay_progress 用于表示同步恢复进度。

运维手段 force-degrade

接口说明

系统提供一个本地 unsafe 运维 API,可用于对目标存活节点发起强制降级请求:

  • POST /pd/api/v1/admin/unsafe/even-replicas/force-degrade

该接口必须直接请求目标 PD 节点,由目标节点本地处理。

请求参数

请求体如下:

{
  "target_label": "dc1",
  "timeout": 600
}

说明:

  • target_label:必填;必须等于当前收到请求的 PD 节点本地 label。
  • timeout:可选;单位为秒;默认 600

备注:

  • 应当将请求直接发送到需要降级的 PD 节点端口。
  • 不要依赖随机负载均衡入口。

接口行为

接口可能阻塞数秒到数分钟,降级流程开始时返回 200 OK

常见返回码

返回码说明
200 OKTiKV downgrade 已经启动;不代表所有 Region 已经恢复完成
400 Bad Request参数非法,例如 target_label 为空或与当前节点本地 label 不匹配
409 Conflict当前已有另一个 force-degrade 在执行,或 unsafe recovery 已在运行
412 Precondition Failed当前不在 even-replicas 模式,或 placement rule 尚未就绪 / 配置非法
500 Internal Server Error其他内部错误

在线配置修改与限制

placement rule 写操作限制

even-replicas 模式下,placement rule 仅支持查询,不支持热更新,以下 placement rule 写接口会直接返回 412 Precondition Failed

  • POST /pd/api/v1/config/rule
  • POST /pd/api/v1/config/rules
  • POST /pd/api/v1/config/rules/batch
  • DELETE /pd/api/v1/config/rule/{group}/{id}
  • POST /pd/api/v1/config/rule_group
  • DELETE /pd/api/v1/config/rule_group/{id}
  • POST /pd/api/v1/config/placement-rule
  • POST /pd/api/v1/config/placement-rule/{group}
  • DELETE /pd/api/v1/config/placement-rule/{group}

其他在线修改限制

even-replicas 模式下,除 placement rule 写操作外,还存在以下在线修改限制:

  • /config/replication:不支持在线修改 enable-placement-rulesmax-replicaslocation-labelsisolation-level
  • /config/replication-mode:不支持在线修改 replication-mode.even-replicas.downgrade-timeoutreplication-mode.even-replicas.arbitration 及其所有子字段。
  • /config/replication-mode:不支持在运行时把复制模式从 majority / dr-auto-sync 切换到 even-replicas,或从 even-replicas 切回其他模式。