OCP使用巡检有个nfs的mount参数检查的高风险不知道是什么

【 使用环境 】生产环境
【 OB or 其他组件 】OCP
【 使用版本 】4.3.6
【问题描述】OCP对集群基础巡检后有个高风险
nfs的mount参数检查
但不知道到底是什么问题,nfs可以用啊
【复现路径】问题出现前后相关操作
【附件及日志】

2 个赞

是这个检查项 Check the mount parameter of NFS

你看下NFS的挂载参数是否标准?参考

https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000003378452

2 个赞

我就是按着这个文档上的命令进行挂载的,NFS4的命令
sudo mount -tnfs -o rw,nfsvers=4.1,sync,lookupcache=positive,hard,timeo=600,wsize=1048576,rsize=1048576,namlen=255 10.10.10.1:/data/nfs_server /data/nfs

1 个赞

nfs这玩意本来就不靠谱 :joy:

1 个赞

mount |grep nfs

截图看下吧

1 个赞

1 个赞

也是够大心脏的,数据服务都敢用挂载服务来承接,我可不敢这么玩,没技术折腾不起啊~ :innocent:


之前用 mongo 的时候就吃过挂载协议的亏,现在有点怕怕了~

1 个赞

那用什么备份呢,OSS?

1 个赞

备份简单啊,直接放 RAID 到中控上,然后就操作到 RAID 就行了。一来呢,备份不是持续性质的,二来它不需要共享特性,所以直接这么用就可以的。如果是备份用什么都无所谓我觉得,但是运行服务肯定不敢这么弄。

1 个赞

本地备份不是只能NFS吗

1 个赞

好吧,我以为你是用远程 NFS 服务来挂载数据盘运行数据服务呢。备份协议支持 NFS 和 S3,都可以是本地或远程,这个无所谓。本地不止是 NFS ,也可以支持其他 OSS 服务载体啊。

1 个赞

我再看下

1 个赞

看了下这个巡检结果是Can not query,发下这个时间点附近的ocp-server.log

1 个赞

是不是挂载的命令有问题,容易导致数据丢失

1 个赞

忽略本问题。OCP 会在新版本修复 pos=positive问题。

1 个赞

截图看下

1 个赞

从截图和描述来看,OCP巡检NFS mount参数时显示“Can not query(无法查询)”并触发高风险告警,但实际NFS能正常使用。这种情况通常是OCP无法从主机获取NFS挂载参数导致的,可按以下步骤排查:

步骤1:验证OCP与主机的SSH连通性

OCP需要通过SSH登录主机执行命令(如mount)来获取NFS参数。需先确认连通性:

  • 在OCP界面中,找到192.168.2.93/94/99这些主机,检查**主机凭证(SSH账号/密码/密钥)**是否有效(可尝试重新测试或更新凭证)。
  • 手动用OCP使用的管理账号,从OCP所在服务器SSH登录目标主机(如ssh root@192.168.2.93),验证是否能正常连接。

步骤2:手动在主机查询NFS挂载信息

若SSH连通正常,登录目标主机(如192.168.2.93),执行命令:

mount | grep nfs
  • 若命令无输出或报错:说明主机本身的NFS挂载存在问题(如NFS客户端服务未启动、/etc/fstab配置错误)。需检查:

    • NFS客户端服务状态(以CentOS为例):
      systemctl status rpcbind  # 检查rpcbind服务(NFS依赖)
      systemctl status nfs-client.target  # 检查NFS客户端服务
      
    • /etc/fstab中NFS挂载项是否正确(如服务端IP、共享路径、挂载参数),可尝试手动重新挂载(mount -a)看是否报错。
  • 若命令能正常显示NFS挂载参数:说明主机侧NFS正常,但OCP的巡检逻辑/Agent存在异常。需进一步排查OCP侧问题。

步骤3:排查OCP巡检的“执行环境”问题

若主机本地能正常查询NFS参数,但OCP仍报“Can not query”,需检查:

  • 防火墙/SELinux限制:临时关闭主机防火墙(systemctl stop firewalld)和SELinux(setenforce 0),重新触发OCP巡检,看告警是否消失。若消失,需配置防火墙规则(开放必要端口)或SELinux策略(如设置sebool -P nfs_export_all_rw 1)。
  • OCP主机Agent状态:检查主机上的OCP Agent服务是否运行正常(通常是ocp-agent相关进程),可尝试重启Agent(如systemctl restart ocp-agent)后再触发巡检。

总结

“Can not query”的核心原因是OCP无法从主机获取NFS信息,需从“SSH连通性→主机本地NFS状态→OCP执行环境”逐步排查,定位是“主机侧NFS配置问题”还是“OCP与主机的交互问题”,再针对性修复即可。