吉利蛋
#1
【 使用环境 】生产环境
【 OB or 其他组件 】OCP
【 使用版本 】4.4.2
【问题描述】
这个85.138(后称为A机器)原本是obd部署的单点OCP(ocpserver和ocp依赖的元数据ob集群都是单点的这台机器),然后我新加了3台BCD机器,走的obd的obd cluster scale_out扩容的,扩容完再把A机器从集群删除,完成了一次从单点A->高可用BCD的架构替换。这是背景
然后问题来了:
在原本的obd配置文件里,ocp-server部分是:
ocp-server-ce:
global:
home_path: /root/ocp
soft_dir: /home/root/software
log_dir: /home/root/logs
然后我嫌这个非标,和官方推荐的不同,新加的3台BCD的scaleout的配置文件额外指定了自己的路径去覆盖global的路径:
ocp-server-ce:
B机器ip:
home_path: /home/admin/ocp
soft_dir: /home/admin/software
log_dir: /home/admin/logs
servers:
- B机器ip
然后可能因为ocp的路径作为一个全局参数只能有一份,所以这个新的目录就覆盖掉了老的目录参数:
然后就出现了最上面的报警,A机器检测到系统参数变了需要我重启,但问题是现在我A机器已经从集群里踢出去了,已经是一台空闲机器了,我该如何把这个告警彻底解决掉?现在屏蔽着右上角还是有个红点,看着挺膈应的
1 个赞
淇铭
#3
138机器上 检查一下 ps -ef | grep -E ‘ocp-server|ocp-server-ce’ | grep -v grep 检查一下进程是否还在
淇铭
#5
你这台机器 你不是要踢掉么?obd(如果 A 还在 obd 配置里)
obd cluster stop <cluster_name> -s <A的IP>
如果不在可以kill掉
吉利蛋
#6
已经踢掉了,obd里我直接配置文件里注释掉了,没走edit config,直接改的配置文件,不然说检测到架构变化要我redeploy。那我kill了看看报警会不会消失
淇铭
#9
如果不需要 就直接销毁掉 obd cluster destroy <cluster_name> -s <A的IP>
滚动重启 三台 ocp-server,让内存中的 running 值与数据库一致 后面应该就不会有问题了
obd cluster restart <cluster_name> -s <B/C/D的IP>
1 个赞
吉利蛋
#10
大佬,有了个新问题:

我ocp接管的集群的configurl里面还是这台A机器的ip,我试了下已经用不了了,这里显示的怎么改成BCD3台机器里的某一台ip啊,这里没自动更新诶
淇铭
#11
ocp上 进入目标集群 nh_ob_cluster1 打开 参数管理(或 集群参数)搜一下obconfig_url 看看怎么配置的
1 个赞
吉利蛋
#12
系统管理->系统参数 吗?没搜到configurl相关的