errcode=-4392 disk is hung

【 使用环境 】生产环境
【 OB or 其他组件 】OB
【 使用版本 】4256
【问题描述】
告警中多次出现
ERROR,关键字=,错误码=4392,日志详情=[2025-09-13 22:02:14.698175] ERROR [USING_LOG_PREFIX] detect_palf_hang_failure_ (ob_failure_detector.cpp:355) [18470][T1002_Occam][T1002][Y0-0000000000000000-0-0] [lt=10][errcode=-4392] disk is hung(msg=“clog disk may be hung, add failure event”, clog_disk_hang_event={type:PROCESS HANG, module:LOG, info:clog disk hang, sen: 0, level:FATAL})错误
但是查看当时的IO情况,io带宽和util并不高

【复现路径】问题出现前后相关操作
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!

1 个赞

用户问题: 在生产环境中使用 OceanBase 4256 版本时,遇到错误码 -4392,提示磁盘可能挂起,但 IO 带宽和利用率并不高,如何排查该问题?

推荐使用 obdiag 工具进行日志采集,以便我们能够更准确地定位问题。

日志采集场景: io问题
日志采集命令: obdiag gather scene run --scene=observer.io

请您按照上述命令进行日志采集,并将采集到的日志压缩包提供给我们,以便进一步分析问题。此外,为了更全面地了解您的环境情况,请您回答以下问题:

  1. 当前系统中是否安装了任何磁盘监控或诊断工具?
  2. 系统最近是否有过任何更新或变更操作?
  3. 您是如何确认当前IO带宽和利用率不高的?使用的具体命令或工具是什么?
  4. 能否提供更多关于该错误出现时系统的上下文信息,例如正在执行的操作、时间点等?
  5. 问题发生时,系统是否有其他异常现象,如网络波动、系统负载突增等?

附上敏捷诊断工具 obdiag 使用帮助链接

监控看util使用80多了,这种情况可能是负载高导致的性能抖动了
使用系统性能监控工具 tsar 展示下对应盘 util 使用率和 load 负载情况

有的悲剧,对业务影响大吗

22:02告警的时候util没有很高

但当时io已经到快50MB/s

ssd跑到50MB也挺正常的

fio测试可以跑到200MB/s+

这个问题是偶发的么?
看下var/log/message是否有报错日志

拿一份obdiag 的巡检报告回来:https://www.oceanbase.com/docs/common-obdiag-cn-1000000003892414