社区版ob4.2.5告警observer坏盘

楚楚 · 2025 年7 月 14 日 09:54

【使用环境】生产环境 or 测试环境
【 OB or 其他组件】
【使用版本】
【问题描述】observer坏盘告警
【复现路径】问题出现前后相关操作
【附件及日志】

查询业务坏盘信息，这类报错，需要如何进一步排查

咖啡哥 · 2025 年7 月 14 日 10:04

可以查看对应节点OBServer日志。
request_delay超过3秒就会打印一些日志。

可以看看对应时间点的IO情况。出现延迟变高就会有这个告警。是否真硬件异常，要看硬件了
lsblk --查看数据盘
tsar -i 1 --io -I xxx -d20250714

辞霜 · 2025 年7 月 14 日 10:17

select * from __all_virtual_bad_block_table where svr_ip = ? and svr_port = ?
带上条件查询。

叶飞 · 2025 年7 月 14 日 10:25

貌似也遇到相同的问题，提示坏盘

咖啡哥 · 2025 年7 月 14 日 10:29

轻微点报：[errcode=-4392] disk is hung(msg=“data disk may be hung, add failure event”
严重了就报坏盘

嗨森滴 · 2025 年7 月 14 日 10:31

该不会用的机械盘吧

楚楚 · 2025 年7 月 14 日 10:53

这个是固态盘

楚楚 · 2025 年7 月 14 日 10:54

之前有遇到，这次报错没有遇到

楚楚 · 2025 年7 月 14 日 10:54

老师看到有网卡的报错

楚楚 · 2025 年7 月 14 日 10:56

磁盘io看着没问题，其实是没什么访问量的库，固态盘

楚楚 · 2025 年7 月 14 日 11:00

iowait告警，然后就磁盘坏盘告警

楚楚 · 2025 年7 月 14 日 11:03

数据库看着其实很闲

楚楚 · 2025 年7 月 14 日 11:08

辞霜 · 2025 年7 月 14 日 11:09

使用的是什么盘，机械盘么

辞霜 · 2025 年7 月 14 日 11:16

查询下 select * from __all_virtual_disk_stat;
看下message日志是否有坏盘告警

楚楚 · 2025 年7 月 14 日 16:37

这个是查询信息

楚楚 · 2025 年7 月 14 日 16:54

老师我想问下，是不是有什么标准来判断坏盘

楚楚 · 2025 年7 月 14 日 16:58

磁盘是ssd

这边看到tsar的信息，这些值很高，从ocp上面看到又很空闲

辞霜 · 2025 年7 月 14 日 17:14

__all_virtual_disk_stat中磁盘损坏检查策略是
对读请求，重试6次读超时(超时时间指数增加)，则标记为坏盘.
对写请求，1分钟100次写失败，则标记为坏盘。
字段is_disk_valid为0表示损坏，你这里是为未损坏状态。
麻烦提供一份observer日志看看

独善其身 · 2025 年7 月 14 日 17:23

看上去网卡和必然都有点错误