三zone 集群,如果挂掉两个zone,只剩一个zone 怎么紧急恢复?

【 使用环境 】测试环境
【 OB or 其他组件 】OB 4.2+
【 使用版本 】4.2.1+
【问题描述】在OB 4.x 版本里面,如果三zone 三副本的集群,有两个zone 灾难性的挂了,无法恢复,就剩一个zone 了,集群变成少数派了,有办法恢复起来做数据备份吗?这个好像看了文档都没找到相应的应急方案

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

在这种情况下,您遇到的是一个典型的高可用性问题。由于两个zone同时出现故障,导致集群无法正常提供服务,这时候您可能需要进行紧急的数据恢复或尝试保持剩余zone的服务可用性。根据您的描述,我推荐您使用 obdiag 工具来收集当前集群的状态信息,这将有助于后续的故障恢复和数据备份工作。

日志采集场景: 集群无法连接
日志采集命令: obdiag gather scene run --scene=observer.cluster_down

请您先执行上述命令,将收集到的信息提供给我们。此外,为了更好地了解当前状况并给出更具体的恢复建议,请您提供以下信息:

  1. 请确认当前集群的具体配置,例如版本号、硬件配置等。
  2. 在两个zone挂掉之前,是否有任何异常报警或者日志记录?
  3. 当前剩余的zone是否能够独立对外提供服务?
  4. 您计划采取何种方式来进行数据备份,例如使用备份文件还是增量备份?
  5. 请提供任何可能有助于我们了解问题背景的信息,如最近的操作记录等。

附上敏捷诊断工具 obdiag 使用帮助链接