OB告警系统参数需要重启后生效

【 使用环境 】生产环境
【 OB or 其他组件 】OCP
【 使用版本 】4.4.2
【问题描述】


这个85.138(后称为A机器)原本是obd部署的单点OCP(ocpserver和ocp依赖的元数据ob集群都是单点的这台机器),然后我新加了3台BCD机器,走的obd的obd cluster scale_out扩容的,扩容完再把A机器从集群删除,完成了一次从单点A->高可用BCD的架构替换。这是背景
然后问题来了:
在原本的obd配置文件里,ocp-server部分是:
ocp-server-ce:
global:
home_path: /root/ocp
soft_dir: /home/root/software
log_dir: /home/root/logs
然后我嫌这个非标,和官方推荐的不同,新加的3台BCD的scaleout的配置文件额外指定了自己的路径去覆盖global的路径:
ocp-server-ce:
B机器ip:
home_path: /home/admin/ocp
soft_dir: /home/admin/software
log_dir: /home/admin/logs
servers:

  • B机器ip
    然后可能因为ocp的路径作为一个全局参数只能有一份,所以这个新的目录就覆盖掉了老的目录参数:

    然后就出现了最上面的报警,A机器检测到系统参数变了需要我重启,但问题是现在我A机器已经从集群里踢出去了,已经是一台空闲机器了,我该如何把这个告警彻底解决掉?现在屏蔽着右上角还是有个红点,看着挺膈应的
1 个赞

138机器上 检查一下 ps -ef | grep -E ‘ocp-server|ocp-server-ce’ | grep -v grep 检查一下进程是否还在

存在的,kill掉吗?

你这台机器 你不是要踢掉么?obd(如果 A 还在 obd 配置里)
obd cluster stop <cluster_name> -s <A的IP>
如果不在可以kill掉

已经踢掉了,obd里我直接配置文件里注释掉了,没走edit config,直接改的配置文件,不然说检测到架构变化要我redeploy。那我kill了看看报警会不会消失


老报警没了,又出来个新报警OCP节点下线…

哦 没事了 过了几分钟自己消除了 多谢大佬哈

如果不需要 就直接销毁掉 obd cluster destroy <cluster_name> -s <A的IP>
滚动重启 三台 ocp-server,让内存中的 running 值与数据库一致 后面应该就不会有问题了
obd cluster restart <cluster_name> -s <B/C/D的IP>

1 个赞

大佬,有了个新问题:
image
我ocp接管的集群的configurl里面还是这台A机器的ip,我试了下已经用不了了,这里显示的怎么改成BCD3台机器里的某一台ip啊,这里没自动更新诶

ocp上 进入目标集群 nh_ob_cluster1 打开 参数管理(或 集群参数)搜一下obconfig_url 看看怎么配置的

1 个赞

系统管理->系统参数 吗?没搜到configurl相关的


找到了,这个得手动修改是吗

是的 修改一下 保存就好了

1 个赞

好的,多谢

mark~~