ocp重启集群时,某节点因为目录不存在导致任务失败,进行任务回滚时提示回滚失败

【 使用环境 】
生产环境

【 ocp 】

【 使用版本 】
64fd453564e37afa0f17212a38302b5

【问题描述】
ob集群业务无法访问,通过ocp重启集群,某一个节点因为目录不存在重启失败,想进行任务回滚,也回滚失败

1 个赞

日志内容
subtask_23000763.log (11.5 KB)

看不大懂

就是当前重启集群,因为某一个节点目录不存在导致任务失败,想回滚任务,任务无法回滚,集群状态是重启中,我想通过将任务回滚,使得集群状态变为正常,然后将第三个节点删除重做,有没方法可以将任务回滚

1、集群架构满足高可用,损失一个节点,集群仍然可用的是前提
2、在失败的任务界面,右侧有个"跳过"按钮,跳过这个任务应该会使得集群恢复正常
3、重新安装这个损坏的节点

1 个赞

ob的home目录被删了。是不是有误操作删库了

都说没人动过

1 个赞

如果通过跳过按钮,集群恢复正常以后,由于第三个节点进程不在了,home 目录也不在了,能通过ocp重装吗?产品流程上不会因为目录或者进程不存在就无法重装这个节点吧

1 个赞

这种场景 重启集群失败以及回滚失败 是预期的,正常使用重装 OBServer 节点应该就可以

重装 OBServer 节点

https://www.oceanbase.com/docs/common-ocp-1000000002381132

麻烦发现部署架构,几个zone 几个observer?
当前所有的机器的observer进程状态是否有存活的?ps -ef|grep observer

1 个赞

1-1-1 架构,两个存活,当前集群可用

1 个赞

你将回滚失败的任务跳过,然后选择重装这个节点试下

1 个赞

好的,申请了变更流程,晚上试一下

1 个赞

生产环境吗?
低峰操作,还要同步数据。

1 个赞

这个问题解决了吗?

2 个赞


您好 现在重做故障节点 一直卡在删除阶段

学到了! :clap: :clap: :clap:

:index_pointing_at_the_viewer: :index_pointing_at_the_viewer:

subtask_23002865.log (109.5 KB)

@论坛小助手