ocp告警中心的恢复告警可以聚合吗

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】清晰明确描述问题
【复现路径】问题出现前后相关操作

告警聚合

为避免告警数量过多导致的告警风暴,告警通道支持配置聚合。
聚合规则为:

  • OceanBase 日志告警,按照告警类型、日志错误码、OceanBase 集群进行聚合。
  • 其它 OceanBase 告警,按照告警类型、OceanBase 集群进行聚合。
  • 应用告警,按照告警类型、告警对象进行聚合。

发送告警的时候有聚合功能,告警恢复了支持聚合发送吗,不然涉及集群的操作恢复后,一下就会告警很多条

1 个赞

OCP上的告警能聚合,具体的聚合规则有参数能设置,按照我的理解,找到已经恢复告警然后设置一个周期内聚合应该就可以

  • aggregate_wait_seconds 是首次产生告警时等待时长,该时间内产生的相同聚合维度的告警将会聚合为一条告警消息。
  • aggregate_interval_seconds 是相同聚合维度的聚合周期,即:多久新产生一条聚合的告警消息。
  • repeat_interval_seconds 是同一告警(相同告警 id,告警未恢复是 id 不会递增)的发送周期,即:同一告警要在下个 repeat_interval_seconds 周期才会被聚合。

OceanBase分布式数据库-海量数据 笔笔算数

1 个赞

告警聚合是按照一定规则将告警消息聚合,
以OB告警为例,按照 alarm_type+obregion维度聚合告警消息。

聚合逻辑:

  1. 聚合单位(按照聚合维度聚合的告警消息)首次出现,聚合后产生告警聚合消息,并标记下次聚合时间为aggregate_wait_seconds 之后;
  2. 非首次聚合,看是否到了聚合时间,到聚合时候则产生告警聚合消息,并标记下次聚合时间为 aggregate_interval_seconds之后;

备注:若告警恢复,再次发生告警,聚合时间以上次计算的聚合时间为准。

以上聚合若能产出聚合消息,则进入消息发出逻辑:

相同告警是否在 repeat_interval_seconds 内有发送过,若发送过,则不发出该消息。

备注:相同告警是告警的id相同,如果告警恢复了,新产生的告警id会递增,即不是相同告警。

2 个赞

发送告警是可以正常聚合的。恢复告警都是一条条发出

已确认目前告警恢复不支持聚合发送,我们提个需求评审下

1 个赞