升级OCP失败,当前OCP-Server无法启动

【 使用环境 】生产环境
【 OB or 其他组件 】OCP-Server 升级
【 使用版本 】4.3.5升级至4.3.6
【问题描述】升级失败,4.3.5的Server也挂了,无法启动,metaDB正常,ocp-agent也正常。8080无法监听,web无法访问。

obd cluster restart xxxx  -c ocp-server-ce
Get local repositories and plugins ok
Load cluster param plugin ok
[ERROR] No such component: ocp-server-ce
See https://www.oceanbase.com/product/ob-deployer/error-codes .

升级失败之后,obd cluster list的状态变成了configured

我执行:
vi .data 文件把状态改为STATUS_STOPPED
status: STATUS_STOPPED
config_status: UNCHNAGE

然后
obd cluster start xxx 成功,但是ocp-server还是没有启动。

当前:
metadb的observer、ocp-agent等都是正常的,独缺这个ocp-server。
ocp-server 8080无法启动,升级到了最后一步就无法连接当前的OCP Server,所以是升级也无法再升。

1 个赞

麻烦提供一下操作流程和yaml文件

1 个赞

升级流程就是 cop-all-in-one 解压 然后obe web upgrade 之后不赘述。

config.zip (504 字节)

1 个赞

提供一下obd的日志

obd.zip (39.5 KB)

1 个赞

确定一下./obd/cluster/idc_opc/config.yaml是你之前提供的那份吗,能截个图看看吗

1 个赞

图片

1 个赞

what can i do ?

可能原因

  1. 升级过程中某些关键文件损坏或配置错误
  2. 升级过程中服务未正确停止导致文件冲突
  3. 数据库schema升级失败但部分变更已应用
  4. 端口冲突或其他环境问题

解决方案

第一步:检查日志定位具体问题

  1. 查看OCP-Server日志:
  2. 检查OBD日志:

第二步:尝试恢复OCP-Server

  1. 完全停止相关服务:
  2. 备份当前OCP-Server目录:
  3. 重新部署OCP-Server 4.3.5版本:
  4. 启动集群:
    第三步:如果仍无法启动,尝试元数据库恢复
  5. 连接到metadb:
  6. 检查OCP相关表状态:
  7. 如果数据损坏,可能需要从备份恢复metadb中的ocp schema
    第四步:完全重新安装OCP-Server
    如果上述方法无效,考虑完全重新安装:
  8. 备份metadb数据
  9. 卸载当前OCP-Server:
  10. 重新部署OCP-Server 4.3.5版本
  11. 重新配置并启动

懂了。无解,重装。
每次吃螃蟹,都被扎到嘴。

已新搭建OCP,暂未接管OB集群。

目前老的OCP已无法启动,应该也无法迁出了,新OCP直接接管OB集群,是否有影响?

这里看你之前提供的yaml文件只有ocp-server的参数,metadb参数在哪里呢?
新OCP直接接管OB集群没有影响

整个config我都cat出来了,就这么些内容,看样子是升级过程中被新的覆盖了

obd版本是多少,可能是有什么bug这边需要测试看看能不能复现出来

直接这个最新的包解压出来的

ocp-all-in-one-4.3.6-20250709105610.el7.x86_64.tar.gz

OceanBase Deploy: 3.3.0
REVISION: 59130100b5a3f36ead5aba77d2158e650446a4bf
BUILD_BRANCH: HEAD
BUILD_TIME: Jun 09 2025 22:25:08OURCE
Copyright (C) 2025 OceanBase
License Apache 2.0: Apache version 2 or later <https://www.apache.org/licenses/LICENSE-2.0>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

那我现在用新的OCP直接接管,ok吧?

接管不了

点击后面的“!” 看下不通过的提示

图片

参考这个帖子修正下idc和region,可以修改ocp meta的数据,也可以调整集群的idc和region, 两种方式都可以