ocp4.3.3 遇到‘服务器存在监控exporter异常’告警

【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】
ocp4.3.3 遇到‘服务器存在监控exporter异常’告警



然后去查看ocp日志发现报错

上面截图报错只出现在了152这台机器上,其他机器如下

monagent日志如下

2 个赞

Queue is full 报错一般是因为监控数据采集的比较多,monitordb 规格太小,写不进去了,需要对 ocp_monitor 扩容,麻烦看下目前ocp server的配置 及ocp_monitor租户配置

2 个赞

ocp server的配置是指服务器的配置吗?
ocp_monitor配置

1 个赞

是的,另外ocp-server-ce组件的memory_size是和ocp server机器的内存配置要求差不多的,可以看下目前ocp管理的observer数量及租户数量,对比如下文档看配置是否足够

https://www.oceanbase.com/docs/common-ocp-1000000001740346

1 个赞

observer就3个节点



ocp服务器的资源,cpu是64核

ocp_monitor租户是24核,内存86.4G,log_disk_size 1.5G ← 这里log_disk_size太小了,log_disk_size通常为内存的3~4倍

另外数据盘配置也要满足要求,参考
https://www.oceanbase.com/docs/common-ocp-1000000001740345

ocp-server服务器配置是内存251G,64核,这个配置是足够的,另外ocp-server和metadb是在同一台机器上吗?

是的ocp-server和metadb是在同一台上的
然后我把log_disk_size扩到了500G


但好像还是那个报错

重启一下agent试试

重启了,

麻烦发下monagent.log

如果内存足够,尝试扩容monagent的内存看下

root用户执行
/home/admin/ocp_agent/bin/ocp_agentctl config -u monagent.limit.memory.quota=4096MB
/home/admin/ocp_agent/bin/ocp_agentctl restart

monagent.zip (5.5 MB)

执行了还是那样

我联系ocp老师分析下,有进展尽快回复你

ocp agent 的日志采集队列满了,目前怀疑日志太多导致的,
麻烦到业务集群的observer日志目录看下 observer.log生成频率,业务集群的observer版本是4.2.5.1吗?

cd /home/admin/oceanbase/log
ls -lhrt

observer是4.2.5.1

我清理下日志,以前的日志清理掉没啥影响的吧?

没有影响,目前大概几分钟刷出来一个observer.log?

两三分钟刷出来一个

清理了,还是那样,是不是日志生成的太快了?