OB多数派故障且无备份情况下有强制有损恢复的手段吗

【 使用环境 】生产环境 or 测试环境

测试环境

【 OB or 其他组件 】

OB

【 使用版本 】

3.2

【问题描述】清晰明确描述问题

OB多数派故障且无备份情况下有强制有损恢复的手段吗?可以数据有损。

【复现路径】问题出现前后相关操作
【问题现象及影响】

【附件】

五副本,应该是可以强制降为三副本拉起来

1 个赞

请教大佬,如果1-1-1的环境,全部节点宕机了一个星期,一个星期后尝试启动集群进入数据库show database报错是什么问题??跟没初始化一样,这种情况怎么拉起集群呢?

全部节点宕机,是要分正常停止的还是异常停止,正常情况下,正常停止一星期在启动不应该报错的,如果有报错,可以发下相关日志,根据日志分析问题

我没有遇到过这个场景,没有操作过。
尝试着原厂的技术支持看一下。
@秃蛙 @谷渐

自己的测试环境,由于主机连接的问题,重置了,只是遗留下这个问题一直想不明白 :rofl:

看看日志吧,启动报错在日志应该有报错。
我以前遇到过时2-2-2集群,NTP挂了,时间同步问题导致挂了,解决了以后就可以正常了。

非正常停止,起初没设置好日志清理策略,然后在内存不足的报错加持下,是ob日志把目录撑爆了,然后堡垒机无法远程登录,直到三五天后堡垒机恢复正常,各节点才正常联通。各节点正常联通后,尝试在各节点启动observer,结果就是show database报错,跟没初始化一样。

1)看描述,全部节点宕机,服务拉起但是系统表报错,应该是报错表不存在,这种情况一般是读取clog有问题,可能是clog满 或者 clog文件被删除了、具体还是需要看日志确认。
2)我看你使用的是3.2企业版本,企业是有方式进行单副本启动的,但限制较多,且强制恢复可能存在数据不完整。 社区版是没有这种修复方式的。

1 个赞

是的,是报系统表不存在,但是我没想明白他起不来的原理原因,能简单讲一下吗???

还有就是,老板,单副本启动的方式给我来一打 :rofl: :joy: :grinning:

启动初始化会读取clog下pool_log里的文件信息,如果损坏是无法完成初始化的。
单副本启动 需要咨询下企业支持能否提供,社区没有的。

关键是我集群故障了,为什么再次启动需要初始化?初始化不是只在部署集群时才进行初始化吗??还是说没一次启动都会有一个内部的初始化过程?

启动初始化和刚部署的Bootstrap初始化不一样的。
启动初始化是做一些校验

我也遇到类似问题,集群坏了

后面如何解决,有没有解决?

有没有相关文档,关于启动初始化的说明

没有单独解释这块的说明,具体得看日志反馈是什么原因导致的。一般是资源问题或者环境问题。

1 个赞