Observer启动后没多久就挂掉了

AntTech_GEJXQH · 2023 年7 月 13 日 10:29

【使用环境】生产环境
【 OB】
【使用版本】：oceanbase-all-in-one-4.1.0.0-100120230523143820.el7.x86_64.tar.gz
【问题描述】：Observer过一段时间就会挂掉
【复现路径】：无操作
【问题现象及影响】
Observer运行有一段时间了，今天早上发现OBserver挂了，重启后过一会还会挂掉，没有跑什么好性能的业务
【附件】
error.log (48.0 KB)

谐云 · 2023 年7 月 13 日 10:58

1.你提供的是obd的日志，看日志在部署过程中的error是踩到了obd的一个已知的问题的坑。但是obd的这个错误的log不会影响已经部署起来的ob，解决这个报错的话，你升级一下obd 到最新版本目前的报错就解决了。
在线环境：obd upgrade
离线环境：下载最新的all in one 然后解压在bin/upgrade.sh 执行一下然后按提示source一下就可以了
2.你说的ob运行一段会挂掉需要你提供ob的log 我们帮你分析

谐云 · 2023 年7 月 13 日 11:15

除了提供ob的log，在提供一下机器配置和ob的配置
0.ob log 在节点的安装目录里面的log 目录
1.机器配置提供 cpu 内存磁盘
2.剩余资源 df -h , free -g
3.ob的配置可以通过obd查看 obd cluster edit-config {deployname}

AntTech_GEJXQH · 2023 年7 月 13 日 11:59

内存64G CPU16核磁盘400G

内存

磁盘

CPU 16核

一下是配置信息
[root@localhost log]# obd cluster edit-config dscpcolony
Search param plugin and load ok
user:
username: root
password: dscp@2021
port: 22
oceanbase-ce:
version: 4.1.0.0
release: 101010022023051821.el7
package_hash: 21271468e0dee7aaf3d4eff4c4bf5e07421ef6fe
127.0.0.1:
zone: zone1
servers:

127.0.0.1
global:
appname: dscpcolony
root_password: Xg6=M-n1
mysql_port: 2881
rpc_port: 2882
home_path: /opt/oceanbase4.1.0/dscpcolony/oceanbase
ocp_agent_monitor_password: Lh8kyje8eT
proxyro_password: 8GZz2TcM2V
ocp_meta_password: BnUAREwjbu
enable_syslog_recycle: true
enable_syslog_wf: false
max_syslog_file_count: 4
ocp_meta_tenant_log_disk_size: 6656M
ocp_meta_tenant_memory_size: 1536M
memory_limit: 6G
datafile_size: 20G
system_memory: 1G
log_disk_size: 15G
cpu_count: 16
production_mode: false
devname: lo
__min_full_resource_pool_memory: 1073741824
obproxy-ce:
version: 4.1.0.0
package_hash: 2a9d9bf67f179dcca2a8c9e7c77373d94e7e2abe
release: 7.el7
servers:
127.0.0.1
global:
prometheus_listen_port: 2884
listen_port: 2883
home_path: /opt/oceanbase4.1.0/dscpcolony/obproxy
obproxy_sys_password: LEaRPVKKAZ
skip_proxy_sys_private_check: true
enable_strict_kernel_release: false
enable_cluster_checkout: false
proxy_mem_limited: 500M
rs_list: 127.0.0.1:2881
observer_sys_password: 8GZz2TcM2V
cluster_name: dscpcolony
observer_root_password: Xg6=M-n1
depends:
oceanbase-ce
obagent:
version: 1.3.1
package_hash: ccfe93272a79ab1073e76f00580386c9c52e8324
release: 5.el7
servers:
127.0.0.1
global:
monagent_http_port: 8088
mgragent_http_port: 8089
home_path: /opt/oceanbase4.1.0/dscpcolony/obagent
http_basic_auth_password: 2E0rUCZUtL
ob_monitor_status: active
depends:
oceanbase-ce
ocp-express:
version: 1.0.1
package_hash: 59eb8062858271a23080c824c98a72f9e5896235
release: 100000072023051917.el7
servers:
127.0.0.1
global:
port: 8180
home_path: /opt/oceanbase4.1.0/dscpcolony/ocpexpress
admin_passwd: tD2v7C._
memory_size: 752M
depends:
obagent
oceanbase-ce
obproxy-ce

谐云 · 2023 年7 月 13 日 13:57

我们这边不能用这个方式获取的。我看了你的配置，你的配置比较低应该是白屏的最小化部署的吧这个配置只能说可以跑通看你机器资源充足建议你增大配置之后部署看看，如果再不稳定可以私聊我通过钉钉发送log
通过obd cluster edit-config {deployname} 修改一下参数，然后根据提示进行reload 或restart
memory_limit: 6G 建议16g+
datafile_size: 20G 如果长期运行建议给大些
system_memory: 1G 建议4g
log_disk_size: 15G 如果长期运行建议给大些