oceanbase的observer.log出现磁盘故障信息

【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】V4.2.1.0
【问题描述】observer.log出现磁盘故障信息
【复现路径】未执行相关操作
【附件及日志】
observer.log (91.1 KB)

日志信息
[2025-06-04 05:11:33.528338] ERROR inner_aio (ob_io_manager.cpp:784) [27105][T1002_OB_SLOG][T1002][Y0-0000000000000000-0-0] [lt=30][errcode=-4392] disk is hung(msg=“data disk has fatal error”)

[2025-06-04 05:43:07.792232] ERROR detect_palf_hang_failure_ (ob_failure_detector.cpp:349) [27245][T1001_Occam][T1001][Y0-0000000000000000-0-0] [lt=40][errcode=-4392] disk is hung(msg=“clog disk may be hung, add failure event”, clog_disk_hang_event={type:PROCESS HANG, module:LOG, info:clog disk hang event, level:FATAL}, clog_disk_last_working_time=1748986982661125, hung time=5131041)
[2025-06-04 05:43:07.855090] ERROR detect_palf_hang_failure_ (ob_failure_detector.cpp:349) [27005][T1002_Occam][T1002][Y0-0000000000000000-0-0] [lt=41][errcode=-4392] disk is hung(msg=“clog disk may be hung, add failure event”, clog_disk_hang_event={type:PROCESS HANG, module:LOG, info:clog disk hang event, level:FATAL}, clog_disk_last_working_time=1748986982676090, hung time=5178773)

磁盘掉线了吧

  1. 先检查下磁盘是不是还正常吧;

  2. 也可以再多看一眼observer的日志,用诊断工具obdiag analyze log 分析一下日志看https://www.oceanbase.com/docs/common-obdiag-cn-1000000002968720

磁盘正产的 还能正常读写

1、登上observer服务器先排查下磁盘
#查看磁盘负载及错误计数
iostat -xmt 1

#查看 dmesg 中是否有磁盘相关报错
dmesg | grep -i “sd” # 或者 “nvme”

2、明确硬件有问题就执行停机下线流程修复,可以参考
少数派节点故障-V4.2.1-OceanBase 数据库文档-分布式数据库使用文档


磁盘好像没什么错误 这块有没有对应的参数优化?

参考 靖顺老师的优先使用obdiag收集下错误日志看看

磁盘是HDD还是SSD。
从这个信息来看,磁盘没开启cache,性能影响很大,出现hung的情况,且不支持 DPO/FUA,影响日志落盘。从硬件信息来看,磁盘不是很适合部署OB。
使用obdiag具体分析看看