@论坛小助手
log_storage_warning_tolerance_time,
data_storage_warning_tolerance_time,
已调整这两个参数为10s,还是告警存在坏盘。
3 个赞
日志采集场景: clog盘满
日志采集命令: obdiag gather scene run --scene=observer.clog_disk_full
为了更好地帮助您定位和解决问题,建议使用上述命令进行日志采集,并将生成的日志压缩包提供给我们分析。此外,请您回答以下问题以便进一步排查:
- 是否已经检查过具体的磁盘空间使用情况?哪些磁盘的空间接近饱和或已满?
- 调整
log_storage_warning_tolerance_time
和data_storage_warning_tolerance_time
参数后,是否有观察到任何变化或新的告警信息? - 当前集群的存储使用率是多少?是否存在长期高存储占用的情况?
- 是否有近期的大规模数据写入或导入操作可能引发存储压力?
- OCP 告警中是否提供了更详细的错误信息或日志片段?如果有,请一并提供。
附上敏捷诊断工具 obdiag 使用帮助链接
3 个赞
坏盘告警,这里需要主机侧帮忙确认了,去查询下主机日志。message
4 个赞
请问告警日志内容方便发一下吗?
4 个赞
最好跟底层环境的工程师一块排查一下
3 个赞
是否需要主机确认坏盘,如果真的损坏,考虑是否有raid,能否热更换。
如果不行,是否可以考虑走下线节点,维护主机,再上线的流程?
3 个赞
2 个赞
看看有业务无损的办法吗
1 个赞
感谢各位协助,确认是误报了,更换过新主机,同样报错,cpu使用率和负载都是正常的,业务也无明显增长,磁盘容量充足,网络正常。
2 个赞