升级OCP失败,当前OCP-Server无法启动

what can i do ?

可能原因

  1. 升级过程中某些关键文件损坏或配置错误
  2. 升级过程中服务未正确停止导致文件冲突
  3. 数据库schema升级失败但部分变更已应用
  4. 端口冲突或其他环境问题

解决方案

第一步:检查日志定位具体问题

  1. 查看OCP-Server日志:
  2. 检查OBD日志:

第二步:尝试恢复OCP-Server

  1. 完全停止相关服务:
  2. 备份当前OCP-Server目录:
  3. 重新部署OCP-Server 4.3.5版本:
  4. 启动集群:
    第三步:如果仍无法启动,尝试元数据库恢复
  5. 连接到metadb:
  6. 检查OCP相关表状态:
  7. 如果数据损坏,可能需要从备份恢复metadb中的ocp schema
    第四步:完全重新安装OCP-Server
    如果上述方法无效,考虑完全重新安装:
  8. 备份metadb数据
  9. 卸载当前OCP-Server:
  10. 重新部署OCP-Server 4.3.5版本
  11. 重新配置并启动

懂了。无解,重装。
每次吃螃蟹,都被扎到嘴。

已新搭建OCP,暂未接管OB集群。

目前老的OCP已无法启动,应该也无法迁出了,新OCP直接接管OB集群,是否有影响?

这里看你之前提供的yaml文件只有ocp-server的参数,metadb参数在哪里呢?
新OCP直接接管OB集群没有影响

整个config我都cat出来了,就这么些内容,看样子是升级过程中被新的覆盖了

obd版本是多少,可能是有什么bug这边需要测试看看能不能复现出来

直接这个最新的包解压出来的

ocp-all-in-one-4.3.6-20250709105610.el7.x86_64.tar.gz

OceanBase Deploy: 3.3.0
REVISION: 59130100b5a3f36ead5aba77d2158e650446a4bf
BUILD_BRANCH: HEAD
BUILD_TIME: Jun 09 2025 22:25:08OURCE
Copyright (C) 2025 OceanBase
License Apache 2.0: Apache version 2 or later <https://www.apache.org/licenses/LICENSE-2.0>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

那我现在用新的OCP直接接管,ok吧?

接管不了

点击后面的“!” 看下不通过的提示

图片

参考这个帖子修正下idc和region,可以修改ocp meta的数据,也可以调整集群的idc和region, 两种方式都可以

:hugs:

这个帖子也是我发的

到底是改OCP的默认区域和IDC好,还是修改OB集群的默认区域和IDC好?

如果你集群的idc和region是规划好的不希望改动,建议修正ocp metadb的元数据

我把OB集群的region和idc都修改了

 SELECT * FROM oceanbase.DBA_OB_ZONES;
 
 alter system modify zone "zone1" idc='default_idc'; 将三个zone的默认idc修改为新OCP的默认IDC

 alter system modify zone "zone1" region='default_region'; 将三个zone的默认region修改为新OCP的默认region

启动接管任务,部分机器clockdiff失败,跳过,可以接管了。

可以的

暴露出一个问题,都是4.3版本的OB或者OCP,这个初始默认的region名字就有变化。

以前是 sys_region

现在是 default_region

兼容性直接影响易维性

接管时有可能出现这个现象,正常使用OCP部署是没问题的,
根因是集群的idc和region映射关系 和ocp metadb已存在的idc和region映射关系 逻辑上冲突