Oceanbase 3节点集群断电重启后,其中1各节点无法启动

【 使用环境 】生产环境
【 OB or 其他组件 】
oceanbase-ce(observer)无法启动,其他组件全部正常
【 使用版本 】
4.3.5
【问题描述】
在服务器断电恢复后,启动OB集群(IP范围:200-202),发现其中的201无论是使用停止+启动命令,或是使用–wop参数都无法让其正常启动

【复现路径】服务器断电
【附件及日志】
observer.rar (309.2 KB)

[2024-11-13 18:59:02.286450] INFO [SERVER.OMT] create_tenant (ob_multi_tenant.cpp:1065) [11117][observer][T500][Y0-0000000000000000-0-0] [lt=21] finish create new tenant(ret=-4052, tenant_id=1002, write_slog=false, create_step=3, bucket_lock_idx=3968)
[2024-11-13 18:59:02.286461] ERROR issue_dba_error (ob_log.cpp:1875) [11117][observer][T500][Y0-0000000000000000-0-0] [lt=9][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-4052, file=“ob_server_checkpoint_slog_handler.cpp”, line_no=831, info=“fail to replay create tenant”)

存在4052报错,估计是断电导致你硬件损坏了,到/var/log下看看messages日志是否有报错

1 个赞

感谢回复,这是/var/log目录下的文件。

你的操作系统是什么

是AnolisOS/龙蜥 8.8版本
QQ_1743413352822

对这个操作系统不太熟,麻烦找一下这个操作系统的对应的message日志
再帮忙sys租户查询如下
select * from __all_virtual_memory_info where tenant_id=1002 and svr_ip=‘xxx.xxxx.xxx.201’ ;
select * __all_virtual_malloc_sample_info where tenant_id=1002 and svr_ip=‘xxx.xxxx.xxx.201’ ;

好的,非常感谢,我来尝试弄下message日志。

你好故障节点当前主机是否正常。
麻烦提供一份故障节点的observer日志,上一份日志无法查看的启动流程