问题现象
ocp 版本:4.2.2-20240315150922
obproxy 版本:obproxy-ce-4.2.3.0-3.el7.x86_64.rpm
生产有台 obproxy 是手动拉起的。 su - admin -c "cd /home/admin/obproxy && bin/obproxy
ocp 告警提示 obproxy 守护进程不在。
参考其他 obproxy 节点同时手动拉起了 守护进程 obproxyd
su - admin
nohup /bin/bash /home/admin/obproxy/bin/obproxyd.sh -c checkalive -p 2883 -r /home/admin/obproxy -n obproxy 2>&1 &
进程也起来了,但是 ocp 的告警确一直都在。
启动后的进程
[admin@RS-OBDB-P2 ~]$ ps -ef|grep obproxy
admin 16680 1 30 4月22 ? 22-03:55:08 /home/admin/obproxy/bin/obproxy
admin 33322 22524 0 12:36 pts/0 00:00:00 grep --color=auto obproxy
admin 55293 1 0 5月22 pts/1 04:30:46 /bin/bash /home/admin/obproxy/bin/obproxyd.sh -c checkalive -p 2883 -r /home/admin/obproxy -n obproxy
[admin@RS-OBDB-P2 ~]$
OCP 告警信息入如下。
告警事件详情
告警概述:alarm_template_id=0:obproxy_cluster=obproxy-1:host=10.0.0.37 OBProxy守护进程不存在
告警详情:OBProxy集群:obproxy,主机:10.0.0.37,告警:OBProxy守护进程不存在。查看告警处理建议
分析
文档中告警处理建议已经走过一遍,没有实际发现。
查看 ocp_agent
日志除了看到提示 obproxyd 的进程数量不对,看不出判断逻辑。
cd /home/admin/ocp_agent/log
[root@RS-OBDB-P2 log]# tail -n 500 monagent.log |grep obproxyd
2024-07-04T12:39:19.764+08:00 INFO [45360,351d1b778532022c] caller=process/process.go:232:doCollect: process uptime down, proc obproxyd.sh count 0, uptime 0
2024-07-04T12:39:34.76334+08:00 INFO [45360,351d1b778532022c] caller=process/process.go:232:doCollect: process uptime down, proc obproxyd.sh count 0, uptime 0