【 使用环境 】
生产环境
【 ocp 】
【 使用版本 】
【问题描述】
ob集群业务无法访问,通过ocp重启集群,某一个节点因为目录不存在重启失败,想进行任务回滚,也回滚失败
看不大懂
就是当前重启集群,因为某一个节点目录不存在导致任务失败,想回滚任务,任务无法回滚,集群状态是重启中,我想通过将任务回滚,使得集群状态变为正常,然后将第三个节点删除重做,有没方法可以将任务回滚
1、集群架构满足高可用,损失一个节点,集群仍然可用的是前提
2、在失败的任务界面,右侧有个"跳过"按钮,跳过这个任务应该会使得集群恢复正常
3、重新安装这个损坏的节点
ob的home目录被删了。是不是有误操作删库了
都说没人动过
如果通过跳过按钮,集群恢复正常以后,由于第三个节点进程不在了,home 目录也不在了,能通过ocp重装吗?产品流程上不会因为目录或者进程不存在就无法重装这个节点吧
这种场景 重启集群失败以及回滚失败 是预期的,正常使用重装 OBServer 节点应该就可以
https://www.oceanbase.com/docs/common-ocp-1000000002381132
麻烦发现部署架构,几个zone 几个observer?
当前所有的机器的observer进程状态是否有存活的?ps -ef|grep observer
1-1-1 架构,两个存活,当前集群可用
你将回滚失败的任务跳过,然后选择重装这个节点试下
好的,申请了变更流程,晚上试一下
生产环境吗?
低峰操作,还要同步数据。
这个问题解决了吗?
学到了!