三zone 集群,如果挂掉两个zone,只剩一个zone 怎么紧急恢复?

【 使用环境 】测试环境
【 OB or 其他组件 】OB 4.2+
【 使用版本 】4.2.1+
【问题描述】在OB 4.x 版本里面,如果三zone 三副本的集群,有两个zone 灾难性的挂了,无法恢复,就剩一个zone 了,集群变成少数派了,有办法恢复起来做数据备份吗?这个好像看了文档都没找到相应的应急方案

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

1 个赞

在这种情况下,您遇到的是一个典型的高可用性问题。由于两个zone同时出现故障,导致集群无法正常提供服务,这时候您可能需要进行紧急的数据恢复或尝试保持剩余zone的服务可用性。根据您的描述,我推荐您使用 obdiag 工具来收集当前集群的状态信息,这将有助于后续的故障恢复和数据备份工作。

日志采集场景: 集群无法连接
日志采集命令: obdiag gather scene run --scene=observer.cluster_down

请您先执行上述命令,将收集到的信息提供给我们。此外,为了更好地了解当前状况并给出更具体的恢复建议,请您提供以下信息:

  1. 请确认当前集群的具体配置,例如版本号、硬件配置等。
  2. 在两个zone挂掉之前,是否有任何异常报警或者日志记录?
  3. 当前剩余的zone是否能够独立对外提供服务?
  4. 您计划采取何种方式来进行数据备份,例如使用备份文件还是增量备份?
  5. 请提供任何可能有助于我们了解问题背景的信息,如最近的操作记录等。

附上敏捷诊断工具 obdiag 使用帮助链接

2 个赞

不满足多数派的情况了 没有办法恢复了 具体其他的两个zone怎么坏了 是磁盘有问题么?

1 个赞

嗯嗯,就是在想这种三副本挂了两副本,比如磁盘损坏,挂的两副本里面数据都丢失了,然后就剩一副本,有没有办法转为单副本来进行数据恢复的场景,

我在想是不是得把另外两个副本按之前的ip 和配置再恢复出三副本的集群才能进行备份?还是有办法直接把剩余的那个副本转为单副本集群?

1 个赞

这种没有办法了吧,只能走集群恢复来搞了应该

1 个赞

不能用了

可以使用ob_admin命令进行单节点拉起,但官方不建议,因为可能存在数据丢失。
另外 OB 4.4.0 及其之后版本预期可以支持,可以测试一下。

1 个赞

修复其中一个Zone,满足多半数,集群就可以正常使用了!