OCP 误告警OBProxy无法连接


【 使用环境 】生产环境
【 OCP 】
【 使用版本 】OCP 版本号: 4.2.1-20231208144448
【问题描述 】告警规则obproxy_cannot_connected ,每次告警proxy集群所有 节点无法连接。告警后实际测试proxy节点却可以正常登录连接集群。这种误告警什么原因? 误告警较频繁 影响大。

告警状态:告警中
名称:OBProxy无法连接
级别:停服告警对象:alarm_template_id=xx:obproxy_cluster=proxy_xx_xx-3000043:host=xxx

看告警规则配置是,检测周期10s, 持续 60 秒。 但集群多个节点每次告警一堆节点什么原因呢?

1 个赞

root@proxysys的密码箱是不是密码错误的

1 个赞


验证一下看看

密码箱里的凭证管理也只有ob集群的

查看proxy集群这里看到是可以正常连接的

mysql -hxxxx -P4883 -uroot@proxysys#proxy集群名 -p -A
这样测试登录下

登录连接没问题的, 这个如果有问题的话,不会误告警几分钟状态就可以检查到恢复吧?
图片

可以排查一下是不是数据库连接池用尽的问题或者是网络问题(从ocp服务所在ip直接黑屏登录到目标obproxy试试)

正常登录没问题。一次多套集群节点都告警,不会同时多套吧。连接有监控无异常。,网络也没发现异常。 ocp 这个告警检查机制是什么呢? 也是这样直接登录连接查看状态?怎么告警要所有proxy 集群节点都发出呢?

告警列表发出来看一下,同时所有proxy 集群节点都发出可能是出发啥bug了。

这个问题有进展吗?告警还在持续吗?

问题解决了,没看到有后续