observer集群，有一个节点挂了，另一个节点执行查询sql报超时错误

AntTech_DBHX8Q · 2025 年4 月 9 日 10:13

【使用环境】生产环境 or 测试环境
【 OB or 其他组件】
【使用版本】
【问题描述】重启observer的报错日志
ERROR issue_dba_error (ob_log.cpp:1875) [124857][GEleTimer][T0][Y0-0000000000000000-0-0] [lt=0][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-4024, file=“ob_occam_timer.h”, line_no=224, info=“fail to register next timer task”)
【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接（右键跳转查看）：

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试，在发帖时输入 [@论坛小助手] 即可召唤小助手，欢迎试用！

论坛小助手 · 2025 年4 月 9 日 10:13

根据您的描述，OceanBase 集群中的一个节点挂掉后，另一个节点执行查询 SQL 报超时错误，并且日志中显示 ‘fail to register next timer task’，错误代码为 -4024。这可能是由于事务或其他系统问题导致的。

推荐使用 obdiag 工具进行根因分析和日志采集，以便确认问题所在。

根因分析场景: 事务其他错误
根因分析命令: obdiag rca run --scene=transaction_other_error --env “{error_code=’-4024’}”
日志采集场景: 主备库延迟
日志采集命令: obdiag gather scene run --scene=observer.delay_of_primary_and_backup

请您按照上述命令执行日志采集和根因分析，并将采集到的日志提供给我们以便进一步确认问题所在。

另外，为了更好地帮助您解决问题，请您提供以下信息：

节点挂掉的具体时间以及是否有相关的系统日志可以提供？
执行查询 SQL 的具体语句是什么？是否可以提供一个可复现的案例？
当前集群的配置情况如何？例如，硬件资源（CPU、内存、磁盘等）和 OceanBase 版本号。
是否有其他异常日志或监控告警信息与该问题相关联？
在节点挂掉之前，集群是否经历过高负载或者大规模数据操作（如导入、删除等）？

附上敏捷诊断工具 obdiag 使用帮助链接

辞霜 · 2025 年4 月 9 日 10:27

使用obdiag收集下相关信息，麻烦提供下ob架构和版本