Leader Election 原理与流程详解

Sunqi 发布于 2025-7-17 16:19 阅读：85 笔记

1. 核心组件

client-go LeaderElector
Lock 接口及实现
- LeaseLock（基于 CoordinationV1 Lease）
- ConfigMapLock（基于 ConfigMap）
- EndpointsLock（基于 Endpoints）
Kubernetes API Server（协调资源的读写）
回调函数（OnStartedLeading、OnStoppedLeading、OnNewLeader）

每个副本都会尝试在 Kubernetes 集群中获取对某个「锁资源」的独占控制权。这个锁通常是一个 Lease 对象，包含以下字段：

借助 Kubernetes API 的资源版本（resourceVersion）机制，所有对同一 Lease 对象的更新都具备原子性和乐观并发控制。

NewLeaderElector 初始化
- 构造 LeaderElector 对象，配置锁类型、租约时长、续约超时、重试间隔，以及各类回调。
进入选举循环（Run）
- 每隔 RetryPeriod 调用 tryAcquireOrRenew()：
  - 若 Lease 不存在，则尝试创建并持有该锁。
  - 若 Lease 存在，检查：
  - 如果 HolderIdentity 是自己，则更新 RenewTime（续约）。
  - 如果当前时间 > RenewTime + LeaseDuration，则锁「过期」，尝试通过更新 HolderIdentity 抢占锁。
  - 否则视为已有 Leader，等待下一轮重试。
成为 Leader 后
- tryAcquireOrRenew() 成功后触发 OnStartedLeading 回调，执行导出/消费事件的主逻辑。
- Leader 会在 RenewDeadline 内不断续约，保证自己在租约期内保持主控权。
锁丢失或主动退出
- 若续约失败（如 API Server 无响应或网络抖动），超出 RenewDeadline，LeaderElector 会调用 OnStoppedLeading。
- 之后其它副本可进入争夺，调用对应的 OnNewLeader 通知观测方当前的 Leader 身份。

如果你想进一步研读 tryAcquireOrRenew() 的源码细节，或模拟选举失败场景进行调试，请告诉我！