【 使用环境 】测试环境
【 OB or 其他组件 】OB 4.2+
【 使用版本 】4.2.1+
【问题描述】在OB 4.x 版本里面,如果三zone 三副本的集群,有两个zone 灾难性的挂了,无法恢复,就剩一个zone 了,集群变成少数派了,有办法恢复起来做数据备份吗?这个好像看了文档都没找到相应的应急方案
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
【 使用环境 】测试环境
【 OB or 其他组件 】OB 4.2+
【 使用版本 】4.2.1+
【问题描述】在OB 4.x 版本里面,如果三zone 三副本的集群,有两个zone 灾难性的挂了,无法恢复,就剩一个zone 了,集群变成少数派了,有办法恢复起来做数据备份吗?这个好像看了文档都没找到相应的应急方案
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
在这种情况下,您遇到的是一个典型的高可用性问题。由于两个zone同时出现故障,导致集群无法正常提供服务,这时候您可能需要进行紧急的数据恢复或尝试保持剩余zone的服务可用性。根据您的描述,我推荐您使用 obdiag 工具来收集当前集群的状态信息,这将有助于后续的故障恢复和数据备份工作。
日志采集场景: 集群无法连接
日志采集命令: obdiag gather scene run --scene=observer.cluster_down
请您先执行上述命令,将收集到的信息提供给我们。此外,为了更好地了解当前状况并给出更具体的恢复建议,请您提供以下信息:
附上敏捷诊断工具 obdiag 使用帮助链接
不满足多数派的情况了 没有办法恢复了 具体其他的两个zone怎么坏了 是磁盘有问题么?
嗯嗯,就是在想这种三副本挂了两副本,比如磁盘损坏,挂的两副本里面数据都丢失了,然后就剩一副本,有没有办法转为单副本来进行数据恢复的场景,
我在想是不是得把另外两个副本按之前的ip 和配置再恢复出三副本的集群才能进行备份?还是有办法直接把剩余的那个副本转为单副本集群?
这种没有办法了吧,只能走集群恢复来搞了应该
不能用了
可以使用ob_admin命令进行单节点拉起,但官方不建议,因为可能存在数据丢失。
另外 OB 4.4.0 及其之后版本预期可以支持,可以测试一下。
修复其中一个Zone,满足多半数,集群就可以正常使用了!