【 使用环境 】生产环境
【 使用版本 】3.1.5
【问题描述】
ocp 异常集群多项指标报警,昨晚有尝试重启 observer zone ocp_agent 恢复,但重启后 早上还有错误。目前没有直接影响到线上业务,但是也处于危险边缘。报警信息如下:
OCP告警通知-单条告警
名称:OB集群冻结检测失败
-
级别:严重
-
告警对象:ob_cluster=obcluster-1
-
概述:ob_cluster=obcluster-1 OB集群冻结检测失败
-
生成时间:2023-10-29T07:38:53+08:00
-
详情:ob_cluster=obcluster-1 OB集群冻结检测失败 距上一次冻结时间为 1 天 6 小时 37 分 9.028 秒, 超过 90000 秒
-
OCP链接:查看详情
OCP告警通知-单条告警
名称:Config server 中 rootserver 信息不正确
-
级别:严重
-
告警对象:ob_cluster=obcluster-1
-
概述:ob_cluster=obcluster-1 Config server 中 rootserver 信息不正确
-
生成时间:2023-10-29T08:40:06+08:00
-
详情:OB 集群 obcluster:1 rootserver 信息与 config server 中 rootserver 信息不一致,请检查 OB 集群的 configUrl 配置
-
OCP链接:查看详情
OCP告警通知-单条告警
名称:日志备份延迟
-
级别:严重
-
告警对象:obcluster
-
概述:obcluster 日志备份延迟
-
生成时间:2023-10-29T08:48:02+08:00
-
详情:obcluster 日志备份延迟
-
OCP链接:查看详情
OCP告警通知-单条告警
名称:OB集群合并检测失败
-
级别:严重
-
告警对象:ob_cluster=obcluster-1
-
概述:ob_cluster=obcluster-1 OB集群合并检测失败
-
生成时间:2023-10-29T08:52:53+08:00
-
详情:ob_cluster=obcluster-1 OB集群合并检测失败 距上一次合并时间为 1 天 7 小时 50 分 37.896 秒, 超过 108000 秒
-
OCP链接:查看详情
ob-monitor-prod 10-29 10:32:04
OCP告警通知-单条告警
名称:agent服务不可用
-
级别:停服
-
告警对象:svr_ip=10.100.1.101:agent_process=ocp_monagent
-
概述:svr_ip=10.100.1.101:agent_process=ocp_monagent agent服务不可用
-
生成时间:2023-10-29T07:30:53+08:00
-
详情:主机 10.100.1.101 的agent进程不可用,进程名:ocp_monagent, 进程状态:unknown。
-
OCP链接:查看详情
ob-monitor-prod 10-29 10:35:04
OCP告警通知-单条告警
名称:获取OB集群信息失败
-
级别:严重
-
告警对象:ob_cluster=obcluster-1
-
概述:ob_cluster=obcluster-1 获取OB集群信息失败
-
生成时间:2023-10-29T10:31:53+08:00
-
详情:ob_cluster=obcluster-1 获取OB集群信息失败,集群状态: RUNNING, 失败原因:OceanBaseException
-
OCP链接:查看详情
OCP告警通知-单条告警
名称:日志备份延迟
-
级别:严重
-
告警对象:obcluster
-
概述:obcluster 日志备份延迟
-
生成时间:2023-10-29T10:37:03+08:00
-
详情:obcluster 日志备份延迟
-
OCP链接:查看详情
OCP告警通知-单条告警
名称:exporter数量不够
-
级别:停服
-
告警对象:service=OCP:svr_ip=10.100.1.101
-
概述:service=OCP:svr_ip=10.100.1.101 exporter数量不够
-
生成时间:2023-10-28T23:46:27+08:00
-
详情:service=OCP:svr_ip=10.100.1.101 exporter数量不够, 部署服务 [OB_CLUSTER],预期exporter数量 7,实际exporter数量 4
-
OCP链接:查看详情
OCP告警通知-多条告警
-
名称:服务器存在监控exporter异常
-
级别:警告
-
告警数量:2
-
聚合分组:monitor_exporter_unavaliable:3
-
告警对象:svr_ip=10.100.1.101:exporter=/metrics/node/ob, svr_ip=10.100.1.101:exporter=/metrics/ob/extra
-
生成时间:2023-10-29T07:45:53+08:00
OCP告警通知-单条告警
名称:服务器存在监控exporter异常
-
级别:警告
-
告警对象:svr_ip=10.100.1.101:exporter=/metrics/ob/basic
-
概述:svr_ip=10.100.1.101:exporter=/metrics/ob/basic 服务器存在监控exporter异常
-
生成时间:2023-10-29T01:50:53+08:00
-
详情:服务器:10.100.1.101,告警:监控exporter http://10.100.1.101:62889/metrics/ob/basic(类型:OB_CLUSTER,采集间隔:1 秒)异常。
-
OCP链接:查看详情
【复现路径】问题出现前后相关操作
【问题现象及影响】
【附件】
OCP告警通知.txt (3.8 KB)