配置项作用 #
cluster.fault_detection.leader_check.interval 配置项控制从节点(Follower)向主节点(Leader)发送健康检查请求的间隔时间。此配置影响集群故障检测的响应速度和网络负载。
配置项类型 #
该配置项为静态配置,需要在启动时设置,修改后需要重启节点才能生效。
默认值 #
1000ms(1秒)
是否必需 #
可选配置项(有默认值)
取值范围 #
100ms ~ 正无穷
配置格式 #
# 默认配置
cluster.fault_detection.leader_check.interval: 1s
# 快速检测(高可用要求)
cluster.fault_detection.leader_check.interval: 500ms
# 降低网络负载
cluster.fault_detection.leader_check.interval: 3s
相关配置项 #
| 配置项 | 默认值 | 说明 |
|---|---|---|
cluster.fault_detection.leader_check.interval | 1s | 检查间隔 |
cluster.fault_detection.leader_check.timeout | 10s | 检查超时时间 |
cluster.fault_detection.leader_check.retry_count | 3 | 失败重试次数 |
工作原理 #
故障检测机制:
┌─────────────────────────────────────────────────────────────────┐
│ 主节点故障检测流程 │
└─────────────────────────────────────────────────────────────────┘
从节点启动
│
▼
按 interval 间隔发送健康检查
│
├── 等待响应(timeout 时间)
│
├── 收到响应 → 主节点正常
│
└── 未收到响应
│
├── 重试 retry_count 次
│
├── 仍然失败 → 判定主节点故障
│
└── 触发选举
使用场景 #
1. 默认配置(推荐) #
cluster.fault_detection.leader_check.interval: 1s
平衡检测速度和网络负载。
2. 高可用要求 #
cluster.fault_detection.leader_check.interval: 300ms
cluster.fault_detection.leader_check.retry_count: 3
适用场景:
- 金融交易系统
- 关键业务系统
- 需要快速故障转移
3. 降低网络负载 #
cluster.fault_detection.leader_check.interval: 5s
适用场景:
- 跨地域部署
- 网络带宽有限
- 稳定的生产环境
推荐设置建议 #
| 集群类型 | 推荐间隔 | 说明 |
|---|---|---|
| 本地集群 | 500ms-1s | 快速检测 |
| 同地域 | 1s | 默认配置 |
| 跨地域 | 2-5s | 考虑网络延迟 |
故障检测时间计算 #
总故障检测时间 ≈ interval × retry_count
示例 1: 使用默认值
interval = 1s, retry_count = 3
故障检测时间 = 1s × 3 = 3s
示例 2: 快速检测
interval = 300ms, retry_count = 3
故障检测时间 = 300ms × 3 = 900ms
注意事项 #
- 静态配置:修改需要重启节点
- 与 timeout 配合:应确保 interval < timeout
- 网络负载:频繁检查会增加网络流量
- 检测速度:间隔越短,故障检测越快
- 集群稳定性:合理的间隔避免频繁选举





