备租户Failover后续应该怎么做

【 使用环境 】测试环境
【 OB or 其他组件 】
ob 4.2.1.8
两台单机ob一主一从,基于网络的物理备库
【 使用版本 】
【问题描述】备租户Failover后续应该怎么做
我已经实现了: 创建空主租户-- 创建空备租户–配置了基于网络的物理备库-- 主备切换Switchover

接下来我打算测试 Failover

根据官方文档描述:

不支持原主租户降备后接入成为新主租户的备租户

那故障切换岂不是成了一次性的了?如果后续原主租户集群再次恢复,应该如何做,还能继续走一遍 基于网络的物理备库将原主租户变为备用租户吗,或者原主租户集群创建新的租户配置成为备用租户?

【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

您的问题是关于备租户在执行 Failover 操作后的处理方式,以及原主租户能否在 Failover 后作为新的备租户接入新主租户的问题。

为了更好地理解您当前遇到的具体情况并提供针对性的建议,请先使用 obdiag 工具来采集集群的基础信息,这将有助于我们了解您的集群环境和配置。

日志采集场景: 集群基础信息
日志采集命令: obdiag gather scene run --scene=observer.base

请您在执行上述命令后,将生成的日志压缩包提供给我们,以便我们进一步分析。

为了更准确地定位问题,请您提供一些额外的信息:

  1. 当前集群的版本信息是什么?
  2. Failover 操作是计划内的还是因为主租户出现了故障?
  3. 在 Failover 操作后,原主租户的状态如何?是否尝试过将其设置为新主租户的备租户?如果尝试过,请提供具体的错误信息或日志片段。
  4. 您提到的备租户 Failover 后的处理方式具体遇到了什么问题?是否有任何错误提示或异常现象?
  5. 是否有使用特定的配置或命令来进行 Failover 操作?如果有,请提供相关命令及其参数。

具体信息可参考以下文档:

  1. 租户角色概述
  2. 恢复完成后升级租户
  3. Failover
  4. OceanBase 术语
  5. 900.9000-9499-of-mysql-mode.md
  6. 物理备库同步过程中卡住

附上敏捷诊断工具 obdiag 使用帮助链接

在 Failover 操作后,原主租户状态异常不可访问,这是我需要假设在生产环境出现的状况,而实际我在测试阶段,原主租户仍然可以正常访问,目前官方文档的描述Failover貌似是一个不可逆的操作

根据文档库中的信息,Failover 操作确实是一个不可逆的过程,它通常用于应对主租户出现无法恢复的故障的情况。执行 Failover 后,原主租户会降级为备租户,而备租户则会升级为主租户。这一过程可能导致数据存在一定的损失 [1], [2]

针对您提到的“原主租户状态异常不可访问”的情况,如果在生产环境中遇到类似问题,您可以考虑以下几种方案:

  1. 重新创建备租户:如果原主租户在 Failover 后无法再作为备租户接入新主租户,您可以考虑在原主租户集群中重新创建一个新的备租户,并配置为当前主租户的备租户。这样做的前提是原主租户集群仍然可用且能够创建新的租户。

  2. 基于现有集群创建新的备租户:如果原主租户集群仍然可用,您可以考虑在其基础上创建一个新的备租户,并将其配置为当前主租户的备租户。这种方式可以避免重新搭建集群的成本。

  3. 使用物理备份恢复:如果原主租户集群已经不可用,您可以考虑使用物理备份恢复的方式创建一个新的备租户。这种方式需要您提前做好定期备份的工作,以便在需要时能够快速恢复。

  4. 使用其他集群作为备租户:如果原主租户集群已经不可用,您还可以考虑使用其他集群作为备租户。这种方式需要您提前规划好集群间的网络连接和数据同步策略。

需要注意的是,Failover 操作后原主租户的状态可能会受到影响,因此在执行 Failover 操作前最好确保有可靠的备份机制,以便在必要时能够快速恢复数据。

综上所述,Failover 操作后原主租户无法再作为备租户接入新主租户,您可以考虑重新创建备租户或使用其他集群作为备租户。具体选择哪种方案需要根据您的实际情况和需求来决定。如果您还有其他疑问或需要进一步的帮助,请随时联系我们。

具体信息可参考以下文档:

  1. Failover
  2. Switchover 失败
  3. 租户角色概述
  4. FAILOVER
  5. 日志存储服务

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

都执行failover用户灾难状况下保证生产环境,断开主备关系了,后续不能再切回来。
后续主租户机器恢复,需要重新搭建备租户了。不能主变备,可以重新搭建个新的备租户

好吧,有点麻烦呀,我们现场环境有可能只是临时故障,但是还想要保证高可用,目前还只有双机 :joy:

建议弄个1-1-1的集群,坏一台的情况下 集群是照常运行的

嗯嗯,1-1-1确实是更好的形态,我向业主反馈一下