ocp告警信息异常

【 使用环境 】生产环境
【 OB or 其他组件 】ob-4.3.2.1 , ocp-4.3.2
【问题描述】
使用ocp接管集群后,告警信息显示停服,实际没有停服,试着重装agent、ocp都不管用
之前用的ocp4.3.1版本,现在升级到了4.3.2


麻烦确认下OCP和所管理的主机之间网络通信是否正常?另外发下ocp-server.log

通信是正常的 ,日志需要看哪部分呢 太大了 传不上去 :thinking:

出现故障时的ocp-server.log,可以压缩上传下,
现在升级到OCP 432后 仍然有这个告警吗?

对 我是把所有东西卸载掉 然后重装的新版本 包括ocp的元数据库也清掉了
接管之后还是告警停服 影响就是:
集群管理:数据库性能监控异常 但是主机性能和observer性能监控正常
租户管理:性能监控、资源管理、sql诊断异常



日志:ocp-server.zip (7.9 MB)

1.麻烦 在OCP和所管理的主机上连接ocp_monitor租户看是否正常
2.OCP和所管理的主机负载高吗?规模是怎样的?几套集群 服务器 租户
3.OCP server的主机配置及ocp_monitor租户,ocp_meta租户配置,OCP应用的内存配置是怎样的?

  1. 测试ocp和管理的主机都能通过客户端连接到ocp_monitor租户
    2.负载正常 ocp机器部署了ocp+ob单节点做元数据库 机器:32核128G内存ssd盘
    目前新部署的ocp只接管了一个集群 18台服务器 加sys一共三个租户

    3.OCP server的主机配置:32核128G内存1.5Tssd盘
    ocp_monitor租户:4c12G
    ocp_meta租户配置:8c24G
    OCP应用的内存配置:12G

好的,其它几个功能查看有异常吗?还是说只有集群管理部分异常,租户管理部分异常?

其他是正常的 像修改参数 查杀会话 拓扑图之类 都是正常的

通过ocp可以观测到meta集群的这些监控数据么

也是异常的

目前没有我没有发现问题,我联系OCP老师分析下

麻烦确认下OCP及所管理的主机 磁盘空间是否足够?

磁盘空间够用的 还有一两个T

问题原因:OCP所管理的observer主机设置了网络策略,即iptables只开放指定的ip访问2881和2883,
未开放127.0.0.1

排查过程:
1.问题现象确认:

版本:

2.问题影响确认:只有集群管理部分异常,租户管理部分异常,其它功能均正常

3.检查ocp server和agent之间的网络,无异常

4.确认OCP Server,ocp_monitor,ocp_meta等内存,cpu以及Observer资源水位情况, top负载情况均无问题

5.检查ocp-server.log 未发现明显异常

6.黑屏执行,无异常
sudo curl -s --unix-socket /home/admin/ocp_agent/run/ocp_monagent.$(cat /home/admin/ocp_agent/run/ocp_monagent.pid).sock http://unix-socket-server/metrics/node/ob | grep oceanbase_connectivity

7.业务集群 执行 select user_name,priv_select from __all_user; ocp_monitor用户存在

凭据管理验证是成功的

8.分析monagent日志,在/home/admin/ocp_agent/log

发现127.0.0.1的2881端口异常,由于agent都是走localhost地址连ob的

登录sys租户同样异常

最终确认网络安全策略做了配置,iptables只开放指定的ip访问2881和2883,
放开127.0.0.1后恢复正常