【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】observer坏盘告警
【复现路径】问题出现前后相关操作
【附件及日志】
查询业务坏盘信息,这类报错,需要如何进一步排查
【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】observer坏盘告警
【复现路径】问题出现前后相关操作
【附件及日志】
查询业务坏盘信息,这类报错,需要如何进一步排查
可以查看对应节点OBServer日志。
request_delay超过3秒就会打印一些日志。
可以看看对应时间点的IO情况。出现延迟变高就会有这个告警。是否真硬件异常,要看硬件了
lsblk --查看数据盘
tsar -i 1 --io -I xxx -d20250714
select * from __all_virtual_bad_block_table where svr_ip = ? and svr_port = ?
带上条件查询。
貌似也遇到相同的问题,提示坏盘
轻微点报:[errcode=-4392] disk is hung(msg=“data disk may be hung, add failure event”
严重了就报坏盘
该不会用的机械盘吧
这个是固态盘
之前有遇到,这次报错没有遇到
磁盘io看着没问题,其实是没什么访问量的库,固态盘
使用的是什么盘,机械盘么
查询下 select * from __all_virtual_disk_stat;
看下message日志是否有坏盘告警
老师我想问下,是不是有什么标准来判断坏盘
__all_virtual_disk_stat中磁盘损坏检查策略是
对读请求,重试6次读超时(超时时间指数增加),则标记为坏盘.
对写请求,1分钟100次写失败,则标记为坏盘。
字段is_disk_valid为0表示损坏,你这里是为未损坏状态。
麻烦提供一份observer日志看看
看上去网卡和必然都有点错误