想问下大家在部署ocp集群的时候,有碰到过这个问题吗,如何解决的呢

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】清晰明确描述问题
【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

根据您提供的信息和图片中的文本内容,看起来您在部署 OCP 集群时遇到了一些问题。为了更好地帮助您解决问题,请提供更详细的信息,包括但不限于:

  • 使用环境(生产环境或测试环境)
  • 涉及的组件(OCP、OB等)
  • 使用的版本
  • 问题的具体描述
  • 复现问题的操作步骤
  • 相关的日志信息

从您提供的图片和OCR提取的内容来看,似乎是在创建主 OB 集群的过程中遇到了“HRM not all ob server accessible”的错误提示。这表明并不是所有的 OBServer 节点都可以被访问到。

根据文档库中的信息,这里有几个可能的原因和解决方法:

  1. 网络问题:确保所有 OBServer 节点之间的网络连接正常,检查防火墙设置,确保必要的端口是开放的。参考文档《OceanBase 安装部署工具》中关于使用 obd 部署集群的部分,其中提到 obd 是通过 SSH 远程执行安装部署的,因此需要确认 Java 环境是否可用,并且可以通过 SSH 正常访问各个节点。

  2. 节点状态异常:如果某些 OBServer 节点存在硬件故障或者其他原因导致无法启动,则会导致该节点不可访问。此时可以尝试重启这些节点的服务或者直接替换掉有问题的节点。具体操作可参见《OceanBase 云平台》文档 运维最佳实践/OceanBase 集群主机故障处理

  3. 配置文件错误:检查 OCP 和 OBServer 的配置文件是否有误,特别是与网络相关的配置项。确保每个 OBServer 的 IP 地址、端口号等信息正确无误。

建议您按照上述方向逐一排查问题所在,并根据实际情况采取相应的措施进行修复。如果有更多具体的报错信息或者其他疑问,欢迎继续提问!

更多信息请查看:

  1. ob_cannot_connected OB 服务器无法连接
  2. 部署生产环境
  3. ic_server_connect_failed Inter-Connector 服务端连接失败
  4. 管理负载均衡
  5. OCP V4.0.2
  6. 使用 OCP 进行运维
  7. 注册 OCP 集群
  8. SYS 租户/RS 服务问题
  9. OCP V3.3.0

日志信息下载一下 看看具体什么问题 ob版本信息提供一下 ocp版本信息提供一下

看一下日志,里面有详细的报错信息

部署参数 和 日志可以发出来看一下,这个环节报错了就代表集群安装失败

1 个赞

麻烦下载任务日志发下,ocp版本,observer.log,ocp-server.log 发下