prometheus 对 OB 的告警

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】V4.2.1 社区版
【问题描述】清晰明确描述问题




我在同一集群的两个 observer节点上都安装了 ocp_agent,但是为什么 141 节点 上是能看到 合并相关 的指标 ,142 节点 却没有 合并相关的指标 ,无论是在 prometheus 界面上查询(如第一张图 ) 还是直接访问指标 页面 (如第三 第四 两张图)都是如此

1 个赞

有一些指标是集群维度的,只要一个obagent采集就好了,一般选择的策略是rs所在机器上的agent来采集这些指标

1 个赞

好的谢谢,我又遇到一个问题
我的另一个集群上原先都是部署的obagent ,但是我后来发现obagent 缺少几个和 合并相关的指标,所以我又部署了ocp_agent,obagent 也同时存在,prometheus配置文件中原先的obagent 相关的job 都改成了 ocp_agent的,但是在prometheus 中 查询时 依然没有 合并 相关的指标 (见第三张图),请问这是因为什么,obagent 和 ocp_agent 不能共存吗,我尝试把 obagent stop 了 ,但是依然不行



1 个赞

OceanBase 的版本是什么,我看了下采集的条件,需要 4.x 版本,并且是rootservice的那个agent才会采集,再确认下是否已经包含了rootservice所在机器的ocp-agent,还有 ocp-agent 的 monagent.log, 看是否有采集报错
image

OB 是4.2.1 社区版,集群一共三个节点,都部署了 ocp_agent,所以这方面应该是没问题的。ocp_agent 对 操作系统版本有要求吗,我在rocky8.8 上部署的是能采集到 合并相关指标的,但是我在 redhat 8.8 上部署的就是这套 ,采集不到合并相关指标

另,为什么obagent 没有合并相关的指标啊,官网上写的是有的,但是实际是没有的,合并告警还挺重要的,应该有告警指标的,能在下个版本的obagent 里加上 合并的告警指标吗

问题解决了谢谢