提问背景
OceanBase宣称通过Paxos协议实现RPO=0、RTO<30秒,但在真实多机房部署(如两地三中心)中,网络抖动、机房断电等故障发生时,实际恢复时间可能受多种因素影响。用户需要了解如何通过配置优化缩短RTO,以及客户端连接中断后的重连策略。
具体问题
- 当Leader副本所在机房整体宕机,Paxos重新选举Leader的过程中,哪些环节耗时最长(如日志同步、选主投票)?
- 是否支持自动剔除故障节点并触发重选?有无参数控制故障检测时间(如心跳超时)和选举超时时间?
- 客户端(如OBProxy或直连驱动)在Leader切换期间的行为是怎样的?是否有自动重试和连接迁移机制?
- 在跨地域部署(如城市间延迟>30ms)下,如何平衡数据强一致与故障转移速度?是否有推荐的最大容忍延迟配置?
问题价值
容灾能力是OceanBase的核心卖点之一,该问题帮助用户评估实际部署中的可靠性,并提供调优方向,保障业务连续性。