【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】清晰明确描述问题
【复现路径】问题出现前后相关操作
告警聚合
为避免告警数量过多导致的告警风暴,告警通道支持配置聚合。
聚合规则为:
- OceanBase 日志告警,按照告警类型、日志错误码、OceanBase 集群进行聚合。
- 其它 OceanBase 告警,按照告警类型、OceanBase 集群进行聚合。
- 应用告警,按照告警类型、告警对象进行聚合。
发送告警的时候有聚合功能,告警恢复了支持聚合发送吗,不然涉及集群的操作恢复后,一下就会告警很多条
1 个赞
皇甫侯
#4
OCP上的告警能聚合,具体的聚合规则有参数能设置,按照我的理解,找到已经恢复告警然后设置一个周期内聚合应该就可以
- aggregate_wait_seconds 是首次产生告警时等待时长,该时间内产生的相同聚合维度的告警将会聚合为一条告警消息。
- aggregate_interval_seconds 是相同聚合维度的聚合周期,即:多久新产生一条聚合的告警消息。
- repeat_interval_seconds 是同一告警(相同告警 id,告警未恢复是 id 不会递增)的发送周期,即:同一告警要在下个 repeat_interval_seconds 周期才会被聚合。
OceanBase分布式数据库-海量数据 笔笔算数
1 个赞
旭辉
#5
告警聚合是按照一定规则将告警消息聚合,
以OB告警为例,按照 alarm_type+obregion维度聚合告警消息。
聚合逻辑:
- 聚合单位(按照聚合维度聚合的告警消息)首次出现,聚合后产生告警聚合消息,并标记下次聚合时间为aggregate_wait_seconds 之后;
- 非首次聚合,看是否到了聚合时间,到聚合时候则产生告警聚合消息,并标记下次聚合时间为 aggregate_interval_seconds之后;
备注:若告警恢复,再次发生告警,聚合时间以上次计算的聚合时间为准。
以上聚合若能产出聚合消息,则进入消息发出逻辑:
相同告警是否在 repeat_interval_seconds 内有发送过,若发送过,则不发出该消息。
备注:相同告警是告警的id相同,如果告警恢复了,新产生的告警id会递增,即不是相同告警。
2 个赞
旭辉
#7
已确认目前告警恢复不支持聚合发送,我们提个需求评审下
1 个赞