【 使用环境 】生产环境
【 OB or 其他组件 】OCP observer
【 使用版本 】OCP4.4.0 observer4.2.1.8
【
【复现路径】
OCP出现 ob_host_invalid_disk_exists OBServer 存在坏盘告警,目前确认告警的触发条件如下:
observer是怎么检查文件系统状态的?
除了根据SQL语句 select /*+ MONITOR_AGENT READ_CONSISTENCY(WEAK) */ count(1) as cnt from __all_virtual_disk_stat where is_disk_valid = 0 and svr_ip = ? and svr_port = ? 。
OB是否有 自带运维工具 来检测 数据盘和日志盘下的文件系统状态
https://www.oceanbase.com/docs/common-ocp-1000000005296289
【附件及日志】推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):
【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)
【备注】基于 LLM 和开源文档 RAG 的论坛小助手已开放测试,在发帖时输入 [@论坛小助手] 即可召唤小助手,欢迎试用!
2 个赞
论坛小助手
#3
针对您提到的问题,可以利用 obdiag 工具来帮助您检查磁盘中的文件系统错误。但是,从提供的 obdiag 场景列表来看,直接用于检查文件系统状态的功能并不直接存在。不过,可以通过收集系统的基础信息和日志来进行间接的分析,尤其是与磁盘相关的日志和信息。
建议您可以先通过 obdiag 收集集群的基础信息和与磁盘相关的日志,以便进一步分析是否存在文件系统的错误。同时,您也可以直接在 Linux 系统层面使用如 fsck 等命令来检查文件系统状态,这通常是处理文件系统错误的第一步。
根据您的问题,建议操作如下:
日志采集场景: 集群基础信息
日志采集命令:
obdiag gather scene run --scene=observer.base
这个命令可以帮助您收集关于集群的基本配置和状态信息,包括但不限于磁盘的使用情况。
同时建议您手动检查磁盘状态:
-
检查磁盘使用率:可以通过
df -h 命令查看各个磁盘分区的使用率。
-
检查文件系统健康状况:对于 ext4 文件系统,可以通过
sudo fsck /dev/sdXn 命令来检查指定分区的文件系统状态(其中 /dev/sdXn 为具体的设备路径)。请注意,fsck 在系统挂载为只读或未挂载的情况下执行最为安全。
-
检查 SMART 状态:如果怀疑硬盘本身存在问题,可以通过
smartctl -a /dev/sdX 查看硬盘的 SMART 属性,评估硬盘健康状况(其中 /dev/sdX 为硬盘的设备名)。
提供给我们的信息:
请将 obdiag 收集到的日志压缩包发送给我们,同时附上通过上述命令获得的结果,这样我们可以更准确地分析可能存在的问题。
为了更有效地帮助您,请回答以下几个问题:
- 您是否已经尝试过重启 OBServer 服务?重启后告警是否消失?
- 是否有其他的告警信息与这次坏盘告警一起出现?
- 您能否提供发生告警前后,系统日志中任何异常的信息或错误记录?
- 您是否曾经对相关磁盘执行过维护操作,例如格式化或文件系统修复?
希望以上步骤能够帮助您初步排查问题,如果有任何疑问或需要进一步的帮助,请随时联系我们。
附上敏捷诊断工具 obdiag 使用帮助链接
1 个赞