OCP告警通知

【 使用环境 】生产环境

【 使用版本 】3.1.5
【问题描述】

ocp 异常集群多项指标报警,昨晚有尝试重启 observer zone ocp_agent 恢复,但重启后 早上还有错误。目前没有直接影响到线上业务,但是也处于危险边缘。报警信息如下:

OCP告警通知-单条告警

名称:OB集群冻结检测失败

  • 级别:严重

  • 告警对象:ob_cluster=obcluster-1

  • 概述:ob_cluster=obcluster-1 OB集群冻结检测失败

  • 生成时间:2023-10-29T07:38:53+08:00

  • 详情:ob_cluster=obcluster-1 OB集群冻结检测失败 距上一次冻结时间为 1 天 6 小时 37 分 9.028 秒, 超过 90000 秒

  • OCP链接:查看详情

OCP告警通知-单条告警

名称:Config server 中 rootserver 信息不正确

  • 级别:严重

  • 告警对象:ob_cluster=obcluster-1

  • 概述:ob_cluster=obcluster-1 Config server 中 rootserver 信息不正确

  • 生成时间:2023-10-29T08:40:06+08:00

  • 详情:OB 集群 obcluster:1 rootserver 信息与 config server 中 rootserver 信息不一致,请检查 OB 集群的 configUrl 配置

  • OCP链接:查看详情

OCP告警通知-单条告警

名称:日志备份延迟

  • 级别:严重

  • 告警对象:obcluster

  • 概述:obcluster 日志备份延迟

  • 生成时间:2023-10-29T08:48:02+08:00

  • 详情:obcluster 日志备份延迟

  • OCP链接:查看详情

OCP告警通知-单条告警

名称:OB集群合并检测失败

  • 级别:严重

  • 告警对象:ob_cluster=obcluster-1

  • 概述:ob_cluster=obcluster-1 OB集群合并检测失败

  • 生成时间:2023-10-29T08:52:53+08:00

  • 详情:ob_cluster=obcluster-1 OB集群合并检测失败 距上一次合并时间为 1 天 7 小时 50 分 37.896 秒, 超过 108000 秒

  • OCP链接:查看详情

ob-monitor-prod 10-29 10:32:04

OCP告警通知-单条告警

名称:agent服务不可用

  • 级别:停服

  • 告警对象:svr_ip=10.100.1.101:agent_process=ocp_monagent

  • 概述:svr_ip=10.100.1.101:agent_process=ocp_monagent agent服务不可用

  • 生成时间:2023-10-29T07:30:53+08:00

  • 详情:主机 10.100.1.101 的agent进程不可用,进程名:ocp_monagent, 进程状态:unknown。

  • OCP链接:查看详情

ob-monitor-prod 10-29 10:35:04

OCP告警通知-单条告警

名称:获取OB集群信息失败

  • 级别:严重

  • 告警对象:ob_cluster=obcluster-1

  • 概述:ob_cluster=obcluster-1 获取OB集群信息失败

  • 生成时间:2023-10-29T10:31:53+08:00

  • 详情:ob_cluster=obcluster-1 获取OB集群信息失败,集群状态: RUNNING, 失败原因:OceanBaseException

  • OCP链接:查看详情

OCP告警通知-单条告警

名称:日志备份延迟

  • 级别:严重

  • 告警对象:obcluster

  • 概述:obcluster 日志备份延迟

  • 生成时间:2023-10-29T10:37:03+08:00

  • 详情:obcluster 日志备份延迟

  • OCP链接:查看详情

OCP告警通知-单条告警

名称:exporter数量不够

  • 级别:停服

  • 告警对象:service=OCP:svr_ip=10.100.1.101

  • 概述:service=OCP:svr_ip=10.100.1.101 exporter数量不够

  • 生成时间:2023-10-28T23:46:27+08:00

  • 详情:service=OCP:svr_ip=10.100.1.101 exporter数量不够, 部署服务 [OB_CLUSTER],预期exporter数量 7,实际exporter数量 4

  • OCP链接:查看详情

OCP告警通知-多条告警

  • 名称:服务器存在监控exporter异常

  • 级别:警告

  • 告警数量:2

  • 聚合分组:monitor_exporter_unavaliable:3

  • 告警对象:svr_ip=10.100.1.101:exporter=/metrics/node/ob, svr_ip=10.100.1.101:exporter=/metrics/ob/extra

  • 生成时间:2023-10-29T07:45:53+08:00

OCP告警通知-单条告警

名称:服务器存在监控exporter异常

【复现路径】问题出现前后相关操作
【问题现象及影响】

【附件】
OCP告警通知.txt (3.8 KB)

1 个赞

服务器有没有什么故障?

建议还是逐条检查一下吧,首先冻结/合并失败,这个比较严重,数据在内存里一直不能dump到磁盘上的话最终会导致无法写入,其他的按照提示也看一下