【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】4256
【问题描述】
告警中多次出现
ERROR,关键字=,错误码=4392,日志详情=[2025-09-13 22:02:14.698175] ERROR [USING_LOG_PREFIX] detect_palf_hang_failure_ (ob_failure_detector.cpp:355) [18470][T1002_Occam][T1002][Y0-0000000000000000-0-0] [lt=10][errcode=-4392] disk is hung(msg=“clog disk may be hung, add failure event”, clog_disk_hang_event={type:PROCESS HANG, module:LOG, info:clog disk hang, sen: 0, level:FATAL})错误
但是查看当时的IO情况,io带宽和util并不高
【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
1 个赞
论坛小助手
#3
用户问题: 在生产环境中使用 OceanBase 4256 版本时,遇到错误码 -4392,提示磁盘可能挂起,但 IO 带宽和利用率并不高,如何排查该问题?
推荐使用 obdiag 工具进行日志采集,以便我们能够更准确地定位问题。
日志采集场景: io问题
日志采集命令: obdiag gather scene run --scene=observer.io
请您按照上述命令进行日志采集,并将采集到的日志压缩包提供给我们,以便进一步分析问题。此外,为了更全面地了解您的环境情况,请您回答以下问题:
- 当前系统中是否安装了任何磁盘监控或诊断工具?
- 系统最近是否有过任何更新或变更操作?
- 您是如何确认当前IO带宽和利用率不高的?使用的具体命令或工具是什么?
- 能否提供更多关于该错误出现时系统的上下文信息,例如正在执行的操作、时间点等?
- 问题发生时,系统是否有其他异常现象,如网络波动、系统负载突增等?
附上敏捷诊断工具 obdiag 使用帮助链接
辞霜
#4
监控看util使用80多了,这种情况可能是负载高导致的性能抖动了
使用系统性能监控工具 tsar 展示下对应盘 util 使用率和 load 负载情况
辞霜
#10
这个问题是偶发的么?
看下var/log/message是否有报错日志
靖顺
#11