社区版ob4.2.5告警observer坏盘

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】observer坏盘告警
【复现路径】问题出现前后相关操作
【附件及日志】

查询业务坏盘信息,这类报错,需要如何进一步排查

可以查看对应节点OBServer日志。
request_delay超过3秒就会打印一些日志。

可以看看对应时间点的IO情况。出现延迟变高就会有这个告警。是否真硬件异常,要看硬件了
lsblk --查看数据盘
tsar -i 1 --io -I xxx -d20250714

2 个赞

select * from __all_virtual_bad_block_table where svr_ip = ? and svr_port = ?
带上条件查询。

2 个赞

貌似也遇到相同的问题,提示坏盘

1 个赞

轻微点报:[errcode=-4392] disk is hung(msg=“data disk may be hung, add failure event”
严重了就报坏盘 :grinning:

2 个赞

该不会用的机械盘吧

1 个赞

这个是固态盘

1 个赞

之前有遇到,这次报错没有遇到

老师看到有网卡的报错

磁盘io看着没问题,其实是没什么访问量的库,固态盘


iowait告警,然后就磁盘坏盘告警


数据库看着其实很闲

使用的是什么盘,机械盘么

查询下 select * from __all_virtual_disk_stat;
看下message日志是否有坏盘告警


这个是查询信息

老师我想问下,是不是有什么标准来判断坏盘



磁盘是ssd

这边看到tsar的信息,这些值很高,从ocp上面看到又很空闲

__all_virtual_disk_stat中磁盘损坏检查策略是
对读请求,重试6次读超时(超时时间指数增加),则标记为坏盘.
对写请求,1分钟100次写失败,则标记为坏盘。
字段is_disk_valid为0表示损坏,你这里是为未损坏状态。
麻烦提供一份observer日志看看

看上去网卡和必然都有点错误