求助!! 原OCP服务器无法使用了,现在新搞了一个OCP,去接管之前的集群,但是接管一般失败了,现在卡住了

情况
1、原来OCP因为服务器问题,崩溃了,启动不起来了,服务器也不准备用了。启动不了
2、原来OCP里面没有操作迁出集群。

3、新部署的一台OCP服务器,去接管原来的集群,但是因为操作问题,导致失败了,还吧失败任务跳过了。导致任务执行成功。
3、现在,新的OCP里面,集群一直在接管中,没办法删除,没办法回滚,现在应该怎么办呢
4、又重新去接管,又提示接管集群已经存在。


@论坛小助手

根据文档库中的信息,您可以按照以下步骤尝试解决问题:

  1. 确认接管集群的状态

    • 登录新的 OCP。
    • 查看接管任务的状态,确认是否真的已经跳过了失败的任务。
  2. 删除接管中的集群

    • 如果接管任务已经跳过并且显示为成功,但集群仍然处于接管中状态,您可以尝试手动删除接管中的集群。
    • 按照文档中的指引,删除 OCP 集群。具体步骤如下:
      1. 登录 OCP。
      2. 导航到 集群管理 页面。
      3. 找到需要删除的集群,点击 删除 按钮。
      4. 确认删除操作。
  3. 重新接管集群

    • 删除接管中的集群后,重新尝试接管原集群。
    • 使用预检查接口查看 OBServer 节点检查不通过的具体原因。调用接口方法如下:
      curl -X POST --user admin:xxx \
      -H "Content-Type:application/json" \
      -d '{"rootSysPassword":"xxxxx",                   #必填,root@sys密码。
      "address":"xxxxx",                                 #必填,集群连接地址。
      "port":2888,                                           #必填,集群连接端口。
      "connectionMode": "proxy"                  #选填,连接模式,可选值 direct | proxy,缺省为direct。
      "clusterName": "xxx",                            #选填,当连接模式为 proxy 时必填。
      "obClusterId": xxx                                 #选填,当连接模式为 proxy 且被接管集群为备集群时必填。
      }' \
      "http://example.com:8080/api/v2/ob/clusters/takeOverPreCheck"
      
  4. 处理 OCP 元信息不一致的问题

    • 如果删除接管中的集群后仍然存在问题,可能是 OCP 元信息与实际状态不一致。
    • 您可以尝试手动清理 OCP 元信息,确保 OCP 与实际集群状态一致。具体步骤如下:
      1. 登录 OCP 的数据库。
      2. 执行 SQL 语句删除相关的元信息记录。例如:
        DELETE FROM ocp_cluster WHERE cluster_name = 'your_cluster_name';
        
      3. 重新启动 OCP 服务,确保元信息更新。
  5. 联系技术支持

    • 如果以上步骤仍然无法解决问题,建议联系 OceanBase 的技术支持团队,获取进一步的帮助和支持。

希望这些步骤能帮助您解决问题。如果还有其他疑问,请随时提问。

详情请参考:

  1. ob_cluster_operation_info OB 集群运维操作提醒
  2. host_unavailable 主机心跳检测失败
  3. 容灾切换 OCP 集群
  4. 接管集群
  5. 管理任务
  6. OceanBase 集群常见问题
  7. 下线 OCP 集群
  8. 管理 OBProxy 连接的 OceanBase 集群
  9. 启动 OceanBase 集群
  10. 添加 OBProxy
  11. 节点故障的自动处理
  12. 删除资源池
  13. 接管非 obshell 部署集群

麻烦发下ocp版本和OB版本,另外下载接管任务日志发下

log_task_2.zip (38.6 KB)


OB 版本4.3.4

1.77是新的ocp server吗?

试下http://192.168.1.77:8080 访问是否正常?

2024-12-09 17:23:18.775  INFO 17253 --- [manual-subtask-executor14,507435a21c74a0ab,e43e11300eef9223] com.oceanbase.ocp.common.ssh.SshUtils    : SSH executeCommand end: sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' on 192.168.1.34, result: SshResult(host=192.168.1.34, username=root, command=sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm', out=, err=curl: (7) Failed connect to 192.168.1.77:8080; Connection refused
, extOut=null, exitStatus=7)
2024-12-09 17:23:18.778  INFO 17253 --- [manual-subtask-executor14,507435a21c74a0ab,e43e11300eef9223] c.o.o.e.internal.template.SshTemplate    : SSH execute end: sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' on 192.168.1.34,result:SshResult(host=192.168.1.34, username=root, command=sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm', out=, err=curl: (7) Failed connect to 192.168.1.77:8080; Connection refused
, extOut=null, exitStatus=7)
2024-12-09 17:23:18.780  INFO 17253 --- [manual-subtask-executor14,507435a21c74a0ab,e43e11300eef9223] c.o.ocp.executor.executor.SshExecutor    : execute ssh command failed, command:sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm', return code:7, output:, err:curl: (7) Failed connect to 192.168.1.77:8080; Connection refused

2024-12-09 17:23:18.783 ERROR 17253 --- [manual-subtask-executor14,507435a21c74a0ab,e43e11300eef9223] c.o.ocp.executor.executor.SshExecutor    : failed to execute ssh command, errMsg:[SshClient]: failed to execute ssh command: sudo curl -s -S -k -o '/tmp'/'ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm' 'http://192.168.1.77:8080/api/v2/object-storage/sys-package/ocp-agent-ce-4.3.2-20241012145836.el7.x86_64.rpm', exit code: 7, cause:null

登陆ocp_meta租户,查下库meta_database的ob_cluster表是否有这个集群?

obclient -hxx.xx.xx.xx -P2881 -uroot@ocp_meta -p’xxx’ -Dmeta_database -A

select * from ob_cluster\G;

OCP安装的时候,服务端口选错了,一个是8080 一个设置的8980,导致接管集群的时候G了 。后来改了好了,但是集群还是没有接管成功

是不是我按照这个把这条htob的数据删除 重新接管就好了

改好后也接管失败,这个日志也需要看下,麻烦发下

没改之前任务就失败了,那个时候没有找到问题,我就回滚了,然后,我改好后,主机这些都能够添加进来了,但是集群里面就还是在接管中,没有重新接管,现在就是怎么重新接管

按理回滚应该是删除这个集群数据,但是估计是OCP的端口问题,集群没有被删除

第一次接管时ocp server端口不对,按说ob_cluster中不应该有记录,你查询的结果有记录吗?
如果有记录你手动删除掉 再重新接管一次试下

不行,删除了是可以重新接管,但是任务不继续执行,很神奇

就类似这种,什么都没反应,就卡在这里,不动 没有什么日志

然后我重装了OCP,还是一样会遇到任务卡顿的情况,OB集群接管成功了,ODP集群创建不了

告警里面,竟然有之前的OCP的服务器不可用的告警,没搞懂怎么消除
**


**

同时 一致在报接管过来的集群不可用,但是实际上又是可用的

最新版本的OCP 还会一直报这个

重装或者重启Agent都没用处

知道原因呢,是因为之前的OB集群应该是是哪里有配置,记录了OCP信息,原来的OCP那台服务器214并没有关闭,他还是在尝试访问,我直接销毁了214这台机器,目前一切正常了

2 个赞