ocp重启ob server :Start obshell process失败

【 使用环境 】生产环境
【 OB or 其他组件 】 OB(4.2.1.7)OCP(4.3.5-20250319105844)
【 使用版本 】
【问题描述】清晰明确描述问题
计划内重启服务器,先在ocp上执行了1、停止服务 2、停止进程
然后重启服务器
3、启动observer
报错:
image
最后选择跳过,ob可以正常访问
日志:
subtask_166802.log (43.0 KB)
在官方文档上查看到类似的报错:
https://www.oceanbase.com/knowledge-base/ocp-ee-1000000003354245?back=kb

我们跳过的操作后,有什么影响吗

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

2 个赞

@论坛小助手

根据您提供的信息,您的生产环境中 OB (4.2.1.7) 和 OCP (4.3.5-20250319105844) 在计划内重启服务器后,尝试通过 OCP 重启 OB Server 时遇到了 Start obshell process 失败的问题。您提到跳过了该操作后,OB 可以正常访问。

影响分析

  1. obshell 进程的作用obshell 是一个辅助进程,主要负责一些管理和监控任务。如果 obshell 未启动,可能会影响到 OCP 对 OB 集群的某些管理和监控功能,例如:

    • 监控数据采集obshell 可能参与采集 OB 集群的监控数据,如果没有启动,OCP 的监控页面可能会显示不完整或延迟的数据。
    • 故障恢复obshell 可能在故障恢复过程中起到辅助作用,如果没有启动,某些自动化故障恢复功能可能无法正常工作。
    • 日志收集obshell 可能负责收集 OB 集群的日志,如果没有启动,日志收集功能可能会受到影响。
  2. OB 可以正常访问:您提到跳过 Start obshell process 后,OB 可以正常访问,这意味着 OB 的核心功能(如数据读写)不受影响。

解决建议

  1. 手动启动 obshell:您可以尝试手动启动 obshell 进程,具体命令如下:

    /home/admin/oceanbase/core_cluster/oceanbase/bin/obshell -I 1.1.1.1 -P 2886 -p 2881 -r '1.1.1.1:2882:2881' -c 7 -n core_cluster
    

    请根据实际情况调整参数。

  2. 检查日志:如果手动启动 obshell 进程仍然失败,建议检查 OCP 和 OB 的日志,查找具体的错误信息,以便进一步诊断问题。

  3. 联系技术支持:如果问题仍然无法解决,建议联系 OceanBase 的技术支持团队,获取专业的帮助。

参考文档

检索到的文档如下:

  1. 替换节点
  2. 单机在线转分布式部署
  3. 监控指标列表

修正一下OB的版本,操作设计到2个集群一个4.2.1.7的(成功),一个4.2.2.0的(失败)。查看成功的任务列表没有Start obshell process这个流程,一个12步一个11步。是不是4.2.2.0这个版本还没有obshell,find了一下没有obshell这个文件,4.2.1.7下面可以查询的到@论坛小助手

根据给定的文档片段,可以确认从4.2.1.7版本开始引入了obshell工具。而4.2.2.0版本未能找到obshell文件,可能是因为在该版本中obshell尚未被集成或因其他原因未被安装。建议您参考以下文档了解obshell的安装方法或者尝试使用obshell-sdk-python或obshell-sdk-go进行节点初始化以安装obshell。

详情请参考:

  1. 启动 obshell
  2. 接管非 obshell 部署集群
  3. OceanBase 生态工具介绍

感谢分享

学习了,感谢分享!!!

可以确认下 ob的root密码是否存在特殊字符,按照操作跳过后没有影响