OB告警系统参数需要重启后生效

吉利蛋 · 2026 年6 月 5 日 14:47

【使用环境】生产环境
【 OB or 其他组件】OCP
【使用版本】4.4.2
【问题描述】

这个85.138（后称为A机器）原本是obd部署的单点OCP（ocpserver和ocp依赖的元数据ob集群都是单点的这台机器），然后我新加了3台BCD机器，走的obd的obd cluster scale_out扩容的，扩容完再把A机器从集群删除，完成了一次从单点A->高可用BCD的架构替换。这是背景
然后问题来了：
在原本的obd配置文件里，ocp-server部分是：
ocp-server-ce:
global:
home_path: /root/ocp
soft_dir: /home/root/software
log_dir: /home/root/logs
然后我嫌这个非标，和官方推荐的不同，新加的3台BCD的scaleout的配置文件额外指定了自己的路径去覆盖global的路径：
ocp-server-ce:
B机器ip:
home_path: /home/admin/ocp
soft_dir: /home/admin/software
log_dir: /home/admin/logs
servers:

B机器ip
然后可能因为ocp的路径作为一个全局参数只能有一份，所以这个新的目录就覆盖掉了老的目录参数：

image946×286 11.9 KB

然后就出现了最上面的报警，A机器检测到系统参数变了需要我重启，但问题是现在我A机器已经从集群里踢出去了，已经是一台空闲机器了，我该如何把这个告警彻底解决掉？现在屏蔽着右上角还是有个红点，看着挺膈应的

淇铭 · 2026 年6 月 5 日 15:03

138机器上检查一下 ps -ef | grep -E ‘ocp-server|ocp-server-ce’ | grep -v grep 检查一下进程是否还在

吉利蛋 · 2026 年6 月 5 日 15:09

存在的，kill掉吗？

淇铭 · 2026 年6 月 5 日 15:36

你这台机器你不是要踢掉么？obd（如果 A 还在 obd 配置里）
obd cluster stop <cluster_name> -s <A的IP>
如果不在可以kill掉

吉利蛋 · 2026 年6 月 5 日 16:10

已经踢掉了，obd里我直接配置文件里注释掉了，没走edit config，直接改的配置文件，不然说检测到架构变化要我redeploy。那我kill了看看报警会不会消失

吉利蛋 · 2026 年6 月 5 日 16:15

老报警没了，又出来个新报警OCP节点下线…

吉利蛋 · 2026 年6 月 5 日 16:17

哦没事了过了几分钟自己消除了多谢大佬哈

淇铭 · 2026 年6 月 5 日 17:03

如果不需要就直接销毁掉 obd cluster destroy <cluster_name> -s <A的IP>
滚动重启三台 ocp-server，让内存中的 running 值与数据库一致后面应该就不会有问题了
obd cluster restart <cluster_name> -s <B/C/D的IP>