【 使用环境 】生产环境
【 OB or 其他组件 】ob ocp
【 使用版本 】ob 4.3.5
【问题描述】[OBServer 非预期的内部错误] 集群:myocp,主机:172.14.202.51,日志类型:observer,日志文件:/media/szsjy/myocp/oceanbase/log/observer.log,日志级别:ERROR,关键字=Unexpected internal error happen,错误码=4388,日志详情=[2025-12-10 08:40:15.152233] ERROR issue_dba_error (ob_log.cpp:1875) [2327166][T1002_L0_G0][T1002][YB42AC0ECA33-000640E046EEF31E-0-0] [lt=96][errcode=-4388] Unexpected internal error happen, please checkout the internal errcode(errcode=-4009, file=“ob_tx_data_functor.cpp”, line_no=391, info=“unexpected io error”)。
【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
1 个赞
论坛小助手
#3
针对您提到的 OCP 所在 OBServer 出现非预期的内部错误,错误码为 4388 的情况,推荐使用 obdiag 工具进行日志采集。这可以帮助我们了解具体的错误详情,进一步定位问题。由于目前提供的信息还无法直接对应到特定的根因分析场景,我们先从日志采集开始。
日志采集场景: 未知问题
日志采集命令: obdiag gather scene run --scene=observer.unknown
请您运行上述命令,并将生成的日志文件提供给我们以便分析。此外,为了更准确地诊断问题,请您提供以下信息:
- 错误出现的具体时间点或时间段?
- 在错误发生前后,是否有进行过任何配置更改或维护操作?
- 错误出现时,系统的负载情况如何?
- 能否提供错误日志中的更多详细信息,特别是与错误码 4388 相关的部分?
感谢您的配合,我们期待收到更多的信息以帮助您解决问题。
附上敏捷诊断工具 obdiag 使用帮助链接
1 个赞
旭辉
#4
可能是磁盘负载导致的,可以使用obdiag分析日志看下,另外clog和data 同盘吗?
obdiag analyze log [options]
https://www.oceanbase.com/docs/common-obdiag-cn-1000000004494334
执行了 obd obdiag gather log myocp --from “2025-12-10 08:00:00” --to “2025-12-10 09:00:00”
92m传不上来
clog和data是 同盘
这个ob只有ocp用
旭辉
#6
包含报错时间点 收集半个小时的就可以,你在OCP上看下这个集群IO相关的性能监控,是否有较深的尖刺,另外磁盘是SSD吗?
同时不建议同盘部署,同盘部署可能导致许多问题
旭辉
#10
observer.log 已经滚掉了,
尖刺的物理IO耗时较高了,建议使用性能更好的磁盘 同时clog和data分开部署,这个告警大概会导致数据库hang住几秒 OCP大概会有卡顿,如果可以接受 可以忽略这个告警