集群的observer经常挂

【 使用环境 】测试环境
【 OB or 其他组件 】集群的observer进程经常中断。这是其中一台observer.log日志
observer.zip (6.9 MB)

【 使用版本 】4.2.3
【问题描述】启动其中一台总会有,其他服务器的observer中断。配置为ocp部署默认配置,后续只修改了ob_query_timeout 为100s
查看视图信息gv$ob_servers

zone SVR_IP SVR_PORT status cpu_capacity cpu_assigned_max cpu_free memory_total_gb system_memory_gb mem_assigned_gb memory_free_gb log_disk_capacity_gb log_disk_assigned_gb log_disk_free_gb data_disk_gb data_disk_used_gb data_disk_free_gb
zone1 192.168.0.124 2882 ACTIVE 8 8 0 12.41 5.00 7.00 0.41 72.25 21.00 51.25 144.53 22.65 121.88
zone3 192.168.0.131 2882 ACTIVE 8 8 0 12.41 5.00 7.00 0.41 72.25 21.00 51.25 144.53 17.83 126.70
zone2 192.168.0.127 2882 ACTIVE 8 8 0 12.41 5.00 7.00 0.41 72.25 21.00 51.25 144.53 17.69 126.84

【复现路径】出现问题前,在进行数据迁移。
【附件及日志】

在服务器 /var/log/messages 文件打印了下信息。 感觉像内存溢出。导致系统内存不足。把observer给干掉了。 服务器总共内存16G。去除proxy、agent等其他服务。可用内存10G。当前集群sys租户分配了2G。业务租户分配了5G
推荐使用OceanBase敏捷诊断工具obdiag收集诊断信息,详情参见链接(右键跳转查看):

【SOP系列 22 】——故障诊断第一步(自助诊断和诊断信息收集)

使用obdiag check巡检一下

1 个赞

cpu配置问题。 虚拟机没有开放如图所示的指令集