【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】
ocp4.3.3 遇到‘服务器存在监控exporter异常’告警
然后去查看ocp日志发现报错
上面截图报错只出现在了152这台机器上,其他机器如下
monagent日志如下
【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】
ocp4.3.3 遇到‘服务器存在监控exporter异常’告警
Queue is full 报错一般是因为监控数据采集的比较多,monitordb 规格太小,写不进去了,需要对 ocp_monitor 扩容,麻烦看下目前ocp server的配置 及ocp_monitor租户配置
是的,另外ocp-server-ce组件的memory_size是和ocp server机器的内存配置要求差不多的,可以看下目前ocp管理的observer数量及租户数量,对比如下文档看配置是否足够
ocp_monitor租户是24核,内存86.4G,log_disk_size 1.5G ← 这里log_disk_size太小了,log_disk_size通常为内存的3~4倍
另外数据盘配置也要满足要求,参考
https://www.oceanbase.com/docs/common-ocp-1000000001740345
ocp-server服务器配置是内存251G,64核,这个配置是足够的,另外ocp-server和metadb是在同一台机器上吗?
重启一下agent试试
麻烦发下monagent.log
如果内存足够,尝试扩容monagent的内存看下
root用户执行
/home/admin/ocp_agent/bin/ocp_agentctl config -u monagent.limit.memory.quota=4096MB
/home/admin/ocp_agent/bin/ocp_agentctl restart
执行了还是那样
我联系ocp老师分析下,有进展尽快回复你
ocp agent 的日志采集队列满了,目前怀疑日志太多导致的,
麻烦到业务集群的observer日志目录看下 observer.log生成频率,业务集群的observer版本是4.2.5.1吗?
cd /home/admin/oceanbase/log
ls -lhrt
我清理下日志,以前的日志清理掉没啥影响的吧?
没有影响,目前大概几分钟刷出来一个observer.log?
清理了,还是那样,是不是日志生成的太快了?