OCP无法正常启动

【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】obd版本3.2.2
【问题描述】使用ocp启动命令,无法正常启动OCP
obd cluster start myocp --wop

【复现路径】
时间点1:在上周4之前我们的OCP都是正常使用;
时间点2:在上周4晚上约10点,我们新创建了一个租户的规格为2C4G,并且将ocp_meta、ocp_monitor、sys三个组合的规格改为了使用新创建的规格;
时间点3:在上周五中午,我们将部署了OCP的服务器做了重启,再通过命令obd cluster start myocp --wop想启动OCP,发现每次重启都失败,失败都会卡在这个步骤,ocp-server-ce program health check

image

如下是启动失败后的ocp-server.log错误日志:
ocp-server.rar (49.8 KB)

麻烦官方同学帮我分析下,目前我们的业务已经被阻断了

1 个赞

这个规格太小了 @论坛小助手

1 个赞

根据您提供的信息,OCP 在上周四调整了 ocp_metaocp_monitorsys 租户的规格为 2C4G 后,在服务器重启后无法正常启动。结合日志和描述,问题可能与资源分配不足或配置不匹配有关。以下是分析和解决步骤:


1. 问题原因分析

根据文档片段和您的描述:

  • 资源不足ocp_meta 租户需要足够的内存和磁盘空间来运行。如果将租户规格调整为 2C4G(较小规格),可能会导致 OCP Server 的健康检查失败。
  • 配置冲突:在调整租户规格时,可能未同步调整相关配置项(如 memory_limitlog_disk_size),导致资源分配不足。
  • 日志提示:从上传的日志文件和描述来看,ocp-server-ce program health check 步骤失败,进一步表明可能是资源或配置问题。

2. 解决步骤

步骤 1:检查并调整资源配置

参考文档片段 1 的内容,您可以尝试以下操作:

  • 执行以下命令打开集群配置文件:
    obd cluster edit-config myocp
    
  • 调整 oceanbase-ce 组件的资源配置项:
    • 增加内存限制:memory_limitmemory_limit_percentage
    • 增加日志磁盘大小:log_disk_sizelog_disk_percentage
  • 调小 ocp_meta_tenant 的内存配置项(memory_sizeocp_meta_tenant_memory_size),以确保资源分配合理。

保存配置后,执行以下命令使修改生效:

obd cluster reload myocp

步骤 2:检查 OCP Meta 租户状态

  • 确保 ocp_meta 租户的状态正常。可以通过以下命令检查:
    SHOW TENANTS;
    
  • 如果 ocp_meta 租户异常,可以尝试重新创建租户或修复其配置。

步骤 3:查看详细日志

根据文档片段 9 的内容,进入 OCP 容器并查看日志:

  • 登录 OCP 容器:
    docker exec -it ocp-421 bash
    
  • 查看启动日志:
    less /home/admin/logs/ocp/bootstrap.log
    
  • 查看运行时日志:
    less /home/admin/logs/ocp/ocp.log
    

通过日志定位具体的错误原因。


步骤 4:重新启动 OCP

完成上述调整后,重新启动 OCP:

obd cluster stop myocp
obd cluster start myocp --wop

3. 预防措施

  • 避免随意调整关键租户规格ocp_metaocp_monitorsys 租户是 OCP 运行的基础,调整其规格时需谨慎,并确保资源充足。
  • 定期检查资源使用情况:通过 OCP 平台监控功能,定期检查内存、磁盘等资源的使用情况,避免因资源不足导致服务中断。

4. 联系技术支持

如果按照上述步骤仍无法解决问题,建议联系 OceanBase 技术支持团队,提供以下信息以便进一步分析:

  • OCP 配置文件(可通过 obd cluster config myocp 查看)
  • 完整的日志文件(包括 bootstrap.logocp.log

希望以上解答能帮助您快速恢复 OCP 的正常运行!

检索到的文档如下:

  1. 错误码
  2. OceanBase 安装部署工具 V2.0.1
  3. 重启 OCP
  4. 使用图形化界面部署 OCP
  5. 使用容器升级 OCP
1 个赞

建议把基础设施资源再扩大一下

1 个赞

OceanBase 社区已接收您的帖子,正在跟进中。

1 个赞

收藏了

最近多谢辞霜大佬帮我分析解答,目前问题已完美解决,重装了OCP,并接管业务集群,为辞霜大佬怒赞两倍次 :heavy_heart_exclamation: :heavy_heart_exclamation: :heavy_heart_exclamation: :heavy_heart_exclamation: :heavy_heart_exclamation: :heavy_heart_exclamation: :heavy_heart_exclamation: :heavy_heart_exclamation: :heavy_heart_exclamation: :heavy_heart_exclamation: :heavy_heart_exclamation:

1 个赞

怎么解决的最后

用户ocp元数据存在异常,后续指导用户重建ocp集群

后面怎么解决的