ob启动失败 CRASH ERROR!!!

【 使用环境 】测试环境
【 OB or 其他组件 】OB
【 使用版本 】
【问题描述】observer启动失败
【复现路径】
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
CRASH ERROR!!! IP=557a0b365ee4, RBP=7fa258a317c0, sig=4, sig_code=2, sig_addr=0x557a0b365ee4, RLIMIT_CORE=0, timestamp=1752066370383480, tid=1009, tname=observer, trace_id=Y0-0000000000000001-0-0, lbt=0x35182349 0x35124046 0x3512315c 0x35129876 0x7fa26201951f 0x39efdee4 0x39efdd31 0x39efde69 0x39ee725a 0x39efb9db 0x39ee1645 0x363df3d4 0x363e25a5 0x104c2558 0x10ec59c2 0x10ebe256 0xbd59d6e 0xbd9ac07 0xbd9aaac 0xbd7552d 0xbd754db 0xbd754b4 0x36233bee 0xbd5bc3d 0xbd5ba23 0x7fa262000d8f 0x7fa262000e3f 0xbd50024, SQL_ID=, SQL_STRING=

1 个赞

推荐使用 obdiag 工具进行日志采集,并且将采集到的日志提供给我们以便确认问题所在。

日志采集场景: observer无故重启
日志采集命令: obdiag gather scene run --scene=observer.restart

另外,为了确定具体的问题,在此需要您提供一些信息:

  1. 您是否在错误发生前后进行了任何配置更改或操作?
  2. 您的 OceanBase 集群当前的状态是什么样的?
  3. 错误信息中提到的地址(sig_addr=0x557a0b365ee4)附近是否有其他错误记录?
  4. 您是否有最近的系统日志或其他相关日志文件可以提供?例如系统日志 /var/log/syslog 或者应用级别的日志。
  5. 能否提供完整的错误堆栈信息?这有助于我们更准确地定位问题。

附上敏捷诊断工具 obdiag 使用帮助链接

我的环境是intel芯片的mac,使用docker创建了一个ubuntu的容器,然后在容器中用源码部署oceanbase

报错是
Start observer ok
observer program health check x
[WARN] OBD-2002: Failed to start server1(127.0.0.1) observer
[ERROR] oceanbase-ce start failed

我的部署语句是./tools/deploy/obd.sh deploy -c ./tools/deploy/single.yaml
single.yml的设置是
oceanbase-ce:
servers:
- name: server1
ip: 127.0.0.1
server1:
mysql_port: 10000
rpc_port: 10001
home_path: /tmp/obtest/observer1
zone: zone1
# The directory for data storage. The default value is home_path/store.
data_dir: /data
# The directory for clog, ilog, and slog. The default value is the same as the data_dir value.
redo_dir: /redo
tag: latest
include: obd/observer.include.yaml
global:
# for default system config used by farm, please see tools/deploy/obd/observer.include.yaml
# You can also specify the configuration directly below (stored locally, switching the working directory and redeploying will still take effect)
production_mode: false
devname: lo
root_password: ‘’
memory_limit: ‘9G’
system_memory: ‘4G’
datafile_size: ‘10G’
cpu_count: ‘4’

是运行一段时间就宕机么?ob的版本查一下
SHOW VARIABLES like ‘version_comment’;
指令集查一下
lscpu | grep avx

obd --version