【 使用环境 】生产环境
【 OB or 其他组件 】OCP
【 使用版本 】4.3.6
【问题描述】OCP对集群基础巡检后有个高风险
nfs的mount参数检查
但不知道到底是什么问题,nfs可以用啊
【复现路径】问题出现前后相关操作
【附件及日志】
是这个检查项 Check the mount parameter of NFS
你看下NFS的挂载参数是否标准?参考
https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000003378452
我就是按着这个文档上的命令进行挂载的,NFS4的命令
sudo mount -tnfs -o rw,nfsvers=4.1,sync,lookupcache=positive,hard,timeo=600,wsize=1048576,rsize=1048576,namlen=255 10.10.10.1:/data/nfs_server /data/nfs
nfs这玩意本来就不靠谱
mount |grep nfs
截图看下吧
也是够大心脏的,数据服务都敢用挂载服务来承接,我可不敢这么玩,没技术折腾不起啊~
之前用 mongo 的时候就吃过挂载协议的亏,现在有点怕怕了~
那用什么备份呢,OSS?
备份简单啊,直接放 RAID 到中控上,然后就操作到 RAID 就行了。一来呢,备份不是持续性质的,二来它不需要共享特性,所以直接这么用就可以的。如果是备份用什么都无所谓我觉得,但是运行服务肯定不敢这么弄。
本地备份不是只能NFS吗
好吧,我以为你是用远程 NFS 服务来挂载数据盘运行数据服务呢。备份协议支持 NFS 和 S3,都可以是本地或远程,这个无所谓。本地不止是 NFS ,也可以支持其他 OSS 服务载体啊。
我再看下
看了下这个巡检结果是Can not query,发下这个时间点附近的ocp-server.log
是不是挂载的命令有问题,容易导致数据丢失
忽略本问题。OCP 会在新版本修复 pos=positive问题。
截图看下
从截图和描述来看,OCP巡检NFS mount参数时显示“Can not query(无法查询)”并触发高风险告警,但实际NFS能正常使用。这种情况通常是OCP无法从主机获取NFS挂载参数导致的,可按以下步骤排查:
步骤1:验证OCP与主机的SSH连通性
OCP需要通过SSH登录主机执行命令(如mount
)来获取NFS参数。需先确认连通性:
- 在OCP界面中,找到
192.168.2.93/94/99
这些主机,检查**主机凭证(SSH账号/密码/密钥)**是否有效(可尝试重新测试或更新凭证)。 - 手动用OCP使用的管理账号,从OCP所在服务器SSH登录目标主机(如
ssh root@192.168.2.93
),验证是否能正常连接。
步骤2:手动在主机查询NFS挂载信息
若SSH连通正常,登录目标主机(如192.168.2.93
),执行命令:
mount | grep nfs
-
若命令无输出或报错:说明主机本身的NFS挂载存在问题(如NFS客户端服务未启动、
/etc/fstab
配置错误)。需检查:- NFS客户端服务状态(以CentOS为例):
systemctl status rpcbind # 检查rpcbind服务(NFS依赖) systemctl status nfs-client.target # 检查NFS客户端服务
-
/etc/fstab
中NFS挂载项是否正确(如服务端IP、共享路径、挂载参数),可尝试手动重新挂载(mount -a
)看是否报错。
- NFS客户端服务状态(以CentOS为例):
-
若命令能正常显示NFS挂载参数:说明主机侧NFS正常,但OCP的巡检逻辑/Agent存在异常。需进一步排查OCP侧问题。
步骤3:排查OCP巡检的“执行环境”问题
若主机本地能正常查询NFS参数,但OCP仍报“Can not query”,需检查:
-
防火墙/SELinux限制:临时关闭主机防火墙(
systemctl stop firewalld
)和SELinux(setenforce 0
),重新触发OCP巡检,看告警是否消失。若消失,需配置防火墙规则(开放必要端口)或SELinux策略(如设置sebool -P nfs_export_all_rw 1
)。 -
OCP主机Agent状态:检查主机上的OCP Agent服务是否运行正常(通常是
ocp-agent
相关进程),可尝试重启Agent(如systemctl restart ocp-agent
)后再触发巡检。
总结
“Can not query”的核心原因是OCP无法从主机获取NFS信息,需从“SSH连通性→主机本地NFS状态→OCP执行环境”逐步排查,定位是“主机侧NFS配置问题”还是“OCP与主机的交互问题”,再针对性修复即可。