ocp告警存在坏盘如何排查处理？

向阳而生 · 2025 年4 月 18 日 15:48

@论坛小助手
log_storage_warning_tolerance_time，
data_storage_warning_tolerance_time，
已调整这两个参数为10s，还是告警存在坏盘。

论坛小助手 · 2025 年4 月 18 日 15:49

日志采集场景: clog盘满
日志采集命令: obdiag gather scene run --scene=observer.clog_disk_full

为了更好地帮助您定位和解决问题，建议使用上述命令进行日志采集，并将生成的日志压缩包提供给我们分析。此外，请您回答以下问题以便进一步排查：

是否已经检查过具体的磁盘空间使用情况？哪些磁盘的空间接近饱和或已满？
调整 log_storage_warning_tolerance_time 和 data_storage_warning_tolerance_time 参数后，是否有观察到任何变化或新的告警信息？
当前集群的存储使用率是多少？是否存在长期高存储占用的情况？
是否有近期的大规模数据写入或导入操作可能引发存储压力？
OCP 告警中是否提供了更详细的错误信息或日志片段？如果有，请一并提供。

辞霜 · 2025 年4 月 18 日 15:56

坏盘告警，这里需要主机侧帮忙确认了，去查询下主机日志。message

obpilot · 2025 年4 月 18 日 18:28

请问告警日志内容方便发一下吗？

独善其身 · 2025 年4 月 18 日 19:49

最好跟底层环境的工程师一块排查一下

乐1983 · 2025 年4 月 19 日 07:57

是否需要主机确认坏盘，如果真的损坏，考虑是否有raid，能否热更换。
如果不行，是否可以考虑走下线节点，维护主机，再上线的流程？

AntTech_QWWMD2 · 2025 年4 月 20 日 12:22

AntTech_HEZ4XU · 2025 年4 月 20 日 21:48

看看有业务无损的办法吗

向阳而生 · 2025 年4 月 22 日 09:51

感谢各位协助，确认是误报了，更换过新主机，同样报错，cpu使用率和负载都是正常的，业务也无明显增长，磁盘容量充足，网络正常。