集群 3 副本,没节点宕机、机房没断电,但每个分区 Leader 天天乱切换:
前端接口间歇性超时;
OBProxy 频繁刷新路由;
运维看不出明显硬件故障。
4 个赞
可能是服务器系统时钟漂移,节点间时间差超了 OB 内部 Paxos 选举阈值,
OB 认为节点心跳超时、副本不健康,自动触发重新选主,反复横跳。
不是网络断、不是磁盘坏,是服务器时间不同步。
可以统一所有节点 NTP 时间同步,校准时钟偏差;
调整 OB 心跳、Paxos 超时参数适配机房网络;
锁住服务器时钟配置,禁止随意改时间。
2 个赞
学习
1 个赞