OCP 所在 OBServer 非预期的内部错误

【 使用环境 】生产环境
【 OB or 其他组件 】ob ocp
【 使用版本 】ob 4.3.5
【问题描述】[OBServer 非预期的内部错误] 集群:myocp,主机:172.14.202.51,日志类型:observer,日志文件:/media/szsjy/myocp/oceanbase/log/observer.log,日志级别:ERROR,关键字=Unexpected internal error happen,错误码=4388,日志详情=[2025-12-10 08:40:15.152233] ERROR issue_dba_error (ob_log.cpp:1875) [2327166][T1002_L0_G0][T1002][YB42AC0ECA33-000640E046EEF31E-0-0] [lt=96][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-4009, file=“ob_tx_data_functor.cpp”, line_no=391, info=“unexpected io error”)。
【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

1 个赞

针对您提到的 OCP 所在 OBServer 出现非预期的内部错误,错误码为 4388 的情况,推荐使用 obdiag 工具进行日志采集。这可以帮助我们了解具体的错误详情,进一步定位问题。由于目前提供的信息还无法直接对应到特定的根因分析场景,我们先从日志采集开始。

日志采集场景: 未知问题
日志采集命令: obdiag gather scene run --scene=observer.unknown

请您运行上述命令,并将生成的日志文件提供给我们以便分析。此外,为了更准确地诊断问题,请您提供以下信息:

  1. 错误出现的具体时间点或时间段?
  2. 在错误发生前后,是否有进行过任何配置更改或维护操作?
  3. 错误出现时,系统的负载情况如何?
  4. 能否提供错误日志中的更多详细信息,特别是与错误码 4388 相关的部分?

感谢您的配合,我们期待收到更多的信息以帮助您解决问题。

附上敏捷诊断工具 obdiag 使用帮助链接

1 个赞

可能是磁盘负载导致的,可以使用obdiag分析日志看下,另外clog和data 同盘吗?

obdiag analyze log [options]

https://www.oceanbase.com/docs/common-obdiag-cn-1000000004494334

执行了 obd obdiag gather log myocp --from “2025-12-10 08:00:00” --to “2025-12-10 09:00:00”
92m传不上来
clog和data是 同盘
这个ob只有ocp用

包含报错时间点 收集半个小时的就可以,你在OCP上看下这个集群IO相关的性能监控,是否有较深的尖刺,另外磁盘是SSD吗?

同时不建议同盘部署,同盘部署可能导致许多问题


机械盘

ob_log_remote_172.14.202.51_20251210083000_20251210085000.zip (4.4 MB)

diag工具分析的结果有啥有价值信息吗

observer.log 已经滚掉了,

尖刺的物理IO耗时较高了,建议使用性能更好的磁盘 同时clog和data分开部署,这个告警大概会导致数据库hang住几秒 OCP大概会有卡顿,如果可以接受 可以忽略这个告警

好的 感谢 还需要 obdiag文件吗

不需要了