咨询 ocp 的 obproxy 守护进程 obproxyd 的判断逻辑

问题现象

ocp 版本:4.2.2-20240315150922
obproxy 版本:obproxy-ce-4.2.3.0-3.el7.x86_64.rpm

生产有台 obproxy 是手动拉起的。 su - admin -c "cd /home/admin/obproxy && bin/obproxy
ocp 告警提示 obproxy 守护进程不在。
参考其他 obproxy 节点同时手动拉起了 守护进程 obproxyd

su - admin
nohup /bin/bash /home/admin/obproxy/bin/obproxyd.sh -c checkalive -p 2883 -r /home/admin/obproxy -n obproxy 2>&1 &

进程也起来了,但是 ocp 的告警确一直都在。

启动后的进程

[admin@RS-OBDB-P2 ~]$ ps -ef|grep obproxy
admin    16680     1 30 4月22 ?       22-03:55:08 /home/admin/obproxy/bin/obproxy
admin    33322 22524  0 12:36 pts/0    00:00:00 grep --color=auto obproxy
admin    55293     1  0 5月22 pts/1   04:30:46 /bin/bash /home/admin/obproxy/bin/obproxyd.sh -c checkalive -p 2883 -r /home/admin/obproxy -n obproxy
[admin@RS-OBDB-P2 ~]$ 

OCP 告警信息入如下。

告警事件详情

告警概述:alarm_template_id=0:obproxy_cluster=obproxy-1:host=10.0.0.37 OBProxy守护进程不存在

告警详情:OBProxy集群:obproxy,主机:10.0.0.37,告警:OBProxy守护进程不存在。查看告警处理建议

分析

文档中告警处理建议已经走过一遍,没有实际发现。

查看 ocp_agent 日志除了看到提示 obproxyd 的进程数量不对,看不出判断逻辑。

cd /home/admin/ocp_agent/log
[root@RS-OBDB-P2 log]# tail -n 500 monagent.log |grep obproxyd 
2024-07-04T12:39:19.764+08:00 INFO [45360,351d1b778532022c] caller=process/process.go:232:doCollect: process uptime down, proc obproxyd.sh count 0, uptime 0
2024-07-04T12:39:34.76334+08:00 INFO [45360,351d1b778532022c] caller=process/process.go:232:doCollect: process uptime down, proc obproxyd.sh count 0, uptime 0

告警是按照进程名判断的,手动拉起的进程名并不是obproxyd,现在要么改成用ocp拉起,要么屏蔽告警

[手动拉起的进程名并不是obproxyd] 这个能用程序语言解释一下吗?

类似 :ps -ef|grep obproxyd


手动拉起来的并不会显示ocp的url等信息

你说的这个 是 obproxy 进程的参数。 obproxy 只有在第一次启动的时候才需要写那么多的参数。第二次启动就不需要(参数会持久化到本地配置文件 etc/obproxy_config.bin )。
当然如果 obproxyd 启动 obproxy 时不管第一次还是第二次,非要指定这么多参数,也是可以的。这是 obproxy 的逻辑。

我这个问题的焦点在于 ocp 怎么判断 obproxy 的守护程序 obproxyd 进程不存在了。
如果ocp的逻辑是进一步去看 obproxy 的命令行参数是否完备,如果真是这样,这个设计就不是很合理。因为照这个逻辑,修复方案就是要杀掉obproxy 让ocp 重新拉一下。
在客户生产环境,并不一定能接受这个方案。

OBProxy 管理概述

https://www.oceanbase.com/docs/common-ocp-1000000000826420

obproxy_process_stop OBProxy 进程停止

https://www.oceanbase.com/docs/common-ocp-1000000000827275