observer正常运行,obagent、ocp express服务启动不了

【 使用环境 】测试环境
【 OB or 其他组件 】其他组件
【 使用版本 】4.3.5
【问题描述】清晰明确描述问题
observer的物理机器内存从32C>>64C,obd cluster restart 集群名指令运行失败,重启之后 restart cluster依然卡在obagent program health check

【复现路径】
select * from dba_ob_servers;
±--------------±---------±-----±------±---------±----------------±-------±---------------------------±----------±----------------------±---------------------------±---------------------------±------------------------------------------------------------------------------------------±------------------+
| SVR_IP | SVR_PORT | ID | ZONE | SQL_PORT | WITH_ROOTSERVER | STATUS | START_SERVICE_TIME | STOP_TIME | BLOCK_MIGRATE_IN_TIME | CREATE_TIME | MODIFY_TIME | BUILD_VERSION | LAST_OFFLINE_TIME |
±--------------±---------±-----±------±---------±----------------±-------±---------------------------±----------±----------------------±---------------------------±---------------------------±------------------------------------------------------------------------------------------±------------------+
| 10.248.23.187 | 2882 | 1 | zone1 | 2881 | YES | ACTIVE | 2025-02-27 16:57:57.829830 | NULL | NULL | 2025-02-19 20:51:06.432686 | 2025-02-27 16:57:58.178195 | 4.3.5.0_100000202024123117-5d6cb5cbc3f7c1ab6eb22e40abec8e160a8764d5(Dec 31 2024 17:35:01) | NULL |
| 10.248.23.188 | 2882 | 2 | zone1 | 2881 | NO | ACTIVE | 2025-02-26 21:50:42.974059 | NULL | NULL | 2025-02-19 20:51:15.623826 | 2025-02-26 21:50:44.391155 | 4.3.5.0_100000202024123117-5d6cb5cbc3f7c1ab6eb22e40abec8e160a8764d5(Dec 31 2024 17:35:01) | NULL |
| 10.248.23.189 | 2882 | 3 | zone1 | 2881 | NO | ACTIVE | 2025-02-26 21:50:48.152217 | NULL | NULL | 2025-02-19 20:51:15.633849 | 2025-02-26 21:50:48.400111 | 4.3.5.0_100000202024123117-5d6cb5cbc3f7c1ab6eb22e40abec8e160a8764d5(Dec 31 2024 17:35:01) | NULL |
±--------------±---------±-----±------±---------±----------------±-------±---------------------------±----------±----------------------±---------------------------±---------------------------±------------------------------------------------------------------------------------------±------------------+
3 rows in set (0.003 sec)

【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

工单信息.txt (1.0 MB)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

1 个赞

日志采集场景: 集群基础信息
日志采集命令: obdiag gather scene run --scene=observer.base

另外,为了确定具体的问题,在此需要您提供一些信息:

  1. obagent 和 ocp express 服务启动失败时是否有报错信息?如果有,请提供具体的错误信息。
  2. obd cluster restart 指令运行失败时的完整错误日志是什么?
  3. 是否可以查看并提供 obagent 的日志文件路径以及最近的日志内容?
  4. 测试环境中 obagent 和 ocp express 的配置文件是否进行过修改?如果有,请说明修改的内容。
  5. 除了 observer 正常运行外,集群中其他组件的状态如何?请提供整个集群的健康状态信息。

请您使用上述命令收集日志,并将收集到的日志压缩包提供给我们,以便我们进一步分析问题所在。

附上敏捷诊断工具 obdiag 使用帮助链接

1、重启ocp express的时候超时报错,主要卡在了obagent program health check

查看的是~/.obd/log/obd 附件
工单信息.txt (1.0 MB)

obagent 和 ocp express 的配置文件没有修改过,只有机器的规格发生过变动;
目前只有observer运行,其他组件都是失败的

根据您提供的信息,obagentocp express 服务启动失败,并且卡在了 obagent program health check 阶段。同时,您提到机器的规格发生了变动(内存从32C增加到64C),这可能是导致问题的原因之一。

分析与建议

  1. 检查网络连接

    • 您提供的日志显示有如下错误信息:
      ERROR 2002 (HY@0@): Can't connect to OceanBase server on '10.248.23.187' (115)
      
      这表明 obagent 在尝试连接到 OceanBase 服务器时遇到了网络连接问题。请确保所有节点之间的网络连接正常,并且防火墙没有阻止必要的端口(如2881、2882等)。
  2. 配置文件检查

    • 尽管您提到 obagentocp express 的配置文件没有修改过,但硬件规格的变化可能会导致某些配置不再适用。特别是涉及到资源分配和性能调优的部分。
    • 请检查 /etc/obagent.conf 和 OCP Express 的相关配置文件,确保它们适应新的硬件环境。例如,内存、CPU 核数等参数是否需要调整。
  3. 日志分析

    • 查看 obagent 的日志文件(通常位于 ~/.obd/log/obd/var/log/obagent),寻找更详细的错误信息。这些日志可以帮助我们进一步定位问题。
    • 如果可能,请提供最近的日志片段,特别是 obagent 启动时的日志。
  4. 资源限制

    • 确认系统资源(如内存、CPU)是否足够支持 obagentocp express 的运行。虽然增加了内存,但其他资源(如 CPU 核数)也需要考虑。
    • 使用 tophtop 命令监控系统资源使用情况,确保没有资源瓶颈。
  5. 重启顺序

    • 尝试按照正确的顺序重启组件。首先确保 observer 完全启动并稳定运行,然后再启动 obagentocp express
    • 使用 obd cluster restart dmoceanbase 命令时,可以加上 --force 参数强制重启,但这应该作为最后的选择。
  6. 版本兼容性

    • 确认当前使用的 obagentocp express 版本是否与 OceanBase 4.3.5 兼容。如果有可用的更新版本,建议升级到最新版本以获得更好的兼容性和稳定性。

具体操作步骤

  1. 检查网络连接

    • 使用 pingtelnet 命令测试各节点之间的连通性。
      ping 10.248.23.187
      telnet 10.248.23.187 2881
      
  2. 查看日志

    • 查看 obagent 日志:
      tail -f ~/.obd/log/obd/obagent.log
      
    • 查看 ocp express 日志:
      tail -f /path/to/ocp-express/logs/ocp-express.log
      
  3. 调整配置文件

    • 编辑 /etc/obagent.conf 和 OCP Express 的配置文件,确保配置适应新硬件环境。
  4. 重启组件

    • 按照正确顺序重启组件:
      obd cluster stop dmoceanbase
      obd cluster start dmoceanbase
      

如果以上步骤仍然无法解决问题,请提供更多的日志信息,以便我们进一步分析。此外,您可以使用 obdiag 工具收集详细的诊断信息,这将有助于更快地定位问题。

检索到的文档如下:

  1. 获取 OceanBase 集群参数列表
  2. OceanBase 数据库概述

(小助手的答复已结束,如未能解决您的问题,请继续提问并等待其他同学的回复,谢谢!)

看日志显示188节点agent启动失败,agent日志发一份
~/.obd/log/obd/obagent.log

工单信息.txt (51.7 KB)
老师,麻烦帮忙看一下呢

内存扩容后,yaml文件有进行过修改么。麻烦也提供一份 ~/.obd/cluster/xxxx/。
ocp-express已经不推荐使用了。建议部署ocp
如果想紧急修复使用del命令删掉
使用obd cluster component del 集群名 ocp-express -f
obd cluster component del 集群名 obagent -f