observer进程无法启动

【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】4.3.5
【问题描述】
目前遇到个oceanbase服务起不来的问题,尝试停止服务->kill进程->删除pid文件->启动服务,还是无法恢复;看现象是observer进程一直无法启动,并且observer.log内容不再更新;

操作过程如下:
systemctl stop oceanbase
systemctl disable oceanbase
systemctl mask oceanbase
pkill -f “obshell”
pkill -f “observer”
rm -f /home/admin/oceanbase/run/daemon.pid
rm -f /home/admin/oceanbase/run/observer.pid
rm -f /home/admin/oceanbase/run/obshell.pid
说明:确认相关进程已经退出

systemctl unmask oceanbase
systemctl enable oceanbase
systemctl start oceanbase

【复现路径】出现问题前重启过oceanbase服务(systemctl restart oceanbase),并且ctrl+c中断了操作。
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

1 个赞

推荐使用 obdiag 工具进行日志采集,并且将采集到的日志提供给我们以便确认问题所在。

日志采集场景: observer无故重启
日志采集命令: obdiag gather scene run --scene=observer.restart

麻烦您提供一些信息以便我们更好地帮助您:

  1. 您当前使用的 OceanBase 版本是多少?
  2. 端口 3306 被哪个进程占用了?能否提供 netstat -tlnp | grep 3306 或者 lsof -i :3306 的输出?
  3. 您是否有配置多个 observer 实例或服务使用同一端口?
  4. 在尝试启动 observer 时,是否有更多的错误日志输出?如果有,请提供日志文件的位置。
  5. 您是否对 OceanBase 进行过任何配置变更?如果有,请说明变更的内容。

附上敏捷诊断工具 obdiag 使用帮助链接

  1. 您当前使用的 OceanBase 版本是多少?
    4.3.5
  2. 端口 3306 被哪个进程占用了?能否提供 netstat -tlnp | grep 3306 或者 lsof -i :3306 的输出?
    没有其他进程占用3306
  3. 您是否有配置多个 observer 实例或服务使用同一端口?
    没有
  4. 在尝试启动 observer 时,是否有更多的错误日志输出?如果有,请提供日志文件的位置。
    尝试启动observer时,没有日志输出,observer.log文件没有任何变化
  5. 您是否对 OceanBase 进行过任何配置变更?如果有,请说明变更的内容。
    没有变更过配置。

有更详细完整的日志吗?