oceanbase4.3.5使用集群部署(3台), 重启后,有一台会自动停止

【 使用环境 】生产环境
【 OB or 其他组件 】observer
【 使用版本 】 4.3.5
【问题描述】集群部署完之后,重启服务器,有一台机器启动之后会自动停止
【复现路径】问题出现前后相关操作
【附件及日志】

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

针对您提到的问题,建议使用 obdiag 工具进行日志采集,以便我们进一步分析和确定问题的具体原因。从您的描述来看,这个问题可能与 observer 无故重启有关。以下是推荐使用的命令:

日志采集场景: observer无故重启
日志采集命令: obdiag gather scene run --scene=observer.restart

请您使用上述命令进行日志采集,并将生成的日志文件提供给我们,这将有助于我们快速定位并解决问题。同时,为了能够更准确地进行故障诊断,请您回答以下问题:

  1. 您能否提供该机器上 observer 启动前后的系统日志?
  2. 能否分享一下该集群的配置详情,包括但不限于服务器硬件配置、操作系统版本、OceanBase 版本等?
  3. 该集群是否在重启之前有执行过特定的操作或任务?如果有,请详细描述。
  4. 这个问题是否只发生在特定条件下,例如高负载、执行某些特定类型的查询等?
  5. 您是否有查看过 OBServer 的 error log,里面有没有与这个错误代码 -4016 相关的更多信息?如果有,请一并提供。

附上敏捷诊断工具 obdiag 使用帮助链接

1、SHOW VARIABLES like ‘version_comment’; 版本信息查一下
2、SELECT * FROM oceanbase.DBA_OB_ZONES;
3、show parameters where name in (‘memory_limit’,‘memory_limit_percentage’,‘system_memory’,‘log_disk_size’,‘log_disk_percentage’,‘datafile_size’,‘datafile_disk_percentage’);

4、SELECT * FROM oceanbase.DBA_OB_SERVERS;