【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】重启observer的报错日志
ERROR issue_dba_error (ob_log.cpp:1875) [124857][GEleTimer][T0][Y0-0000000000000000-0-0] [lt=0][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-4024, file=“ob_occam_timer.h”, line_no=224, info=“fail to register next timer task”)
【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
论坛小助手
#3
根据您的描述,OceanBase 集群中的一个节点挂掉后,另一个节点执行查询 SQL 报超时错误,并且日志中显示 ‘fail to register next timer task’,错误代码为 -4024。这可能是由于事务或其他系统问题导致的。
推荐使用 obdiag 工具进行根因分析和日志采集,以便确认问题所在。
根因分析场景: 事务其他错误
根因分析命令: obdiag rca run --scene=transaction_other_error --env “{error_code=’-4024’}”
日志采集场景: 主备库延迟
日志采集命令: obdiag gather scene run --scene=observer.delay_of_primary_and_backup
请您按照上述命令执行日志采集和根因分析,并将采集到的日志提供给我们以便进一步确认问题所在。
另外,为了更好地帮助您解决问题,请您提供以下信息:
- 节点挂掉的具体时间以及是否有相关的系统日志可以提供?
- 执行查询 SQL 的具体语句是什么?是否可以提供一个可复现的案例?
- 当前集群的配置情况如何?例如,硬件资源(CPU、内存、磁盘等)和 OceanBase 版本号。
- 是否有其他异常日志或监控告警信息与该问题相关联?
- 在节点挂掉之前,集群是否经历过高负载或者大规模数据操作(如导入、删除等)?
附上敏捷诊断工具 obdiag 使用帮助链接
辞霜
#4
使用obdiag收集下相关信息,麻烦提供下ob架构和版本