ocp告警存在坏盘如何排查处理?

@论坛小助手
log_storage_warning_tolerance_time,
data_storage_warning_tolerance_time,
已调整这两个参数为10s,还是告警存在坏盘。

3 个赞

日志采集场景: clog盘满
日志采集命令: obdiag gather scene run --scene=observer.clog_disk_full

为了更好地帮助您定位和解决问题,建议使用上述命令进行日志采集,并将生成的日志压缩包提供给我们分析。此外,请您回答以下问题以便进一步排查:

  1. 是否已经检查过具体的磁盘空间使用情况?哪些磁盘的空间接近饱和或已满?
  2. 调整 log_storage_warning_tolerance_timedata_storage_warning_tolerance_time 参数后,是否有观察到任何变化或新的告警信息?
  3. 当前集群的存储使用率是多少?是否存在长期高存储占用的情况?
  4. 是否有近期的大规模数据写入或导入操作可能引发存储压力?
  5. OCP 告警中是否提供了更详细的错误信息或日志片段?如果有,请一并提供。

附上敏捷诊断工具 obdiag 使用帮助链接

3 个赞

坏盘告警,这里需要主机侧帮忙确认了,去查询下主机日志。message

4 个赞

请问告警日志内容方便发一下吗?

4 个赞

最好跟底层环境的工程师一块排查一下

3 个赞

是否需要主机确认坏盘,如果真的损坏,考虑是否有raid,能否热更换。
如果不行,是否可以考虑走下线节点,维护主机,再上线的流程?

3 个赞

:fist_right: :fist_left:

2 个赞

看看有业务无损的办法吗

1 个赞

感谢各位协助,确认是误报了,更换过新主机,同样报错,cpu使用率和负载都是正常的,业务也无明显增长,磁盘容量充足,网络正常。

2 个赞