当某个 follower 节点宕机后,集群是如何自动感知并完成故障转移的?在此过程中,业务是否会感知到中断?
1 个赞
在 OceanBase 集群中,Root Service 负责集群的节点管理和状态监测。节点通过每2秒发送一次的心跳数据包汇报自身状态。如果某个 follower 节点宕机,Root Service 会根据 lease_time 配置项,累计超过这个时间没有收到心跳数据包后,认为该节点短暂断线;若超过 server_permanent_offline_time 时间仍无响应,则认为该节点永久离线。此时,为了保证服务的连续性,Root Service 会执行故障转移,自动选择另一个健康的节点作为新的副本,确保业务不会感知到中断。但是,实际过程中可能会因为网络延迟等因素导致短暂的服务不可用,这取决于集群配置和当前负载状况。
更多信息请查看: