Observer启动后没多久就挂掉了

【 使用环境 】生产环境
【 OB】
【 使用版本 】:oceanbase-all-in-one-4.1.0.0-100120230523143820.el7.x86_64.tar.gz
【问题描述】:Observer过一段时间就会挂掉
【复现路径】:无操作
【问题现象及影响】
Observer运行有一段时间了,今天早上发现OBserver挂了,重启后过一会还会挂掉,没有跑什么好性能的业务
【附件】
error.log (48.0 KB)

1.你提供的是obd的日志,看日志在部署过程中的error是踩到了obd的一个已知的问题的坑。 但是obd的这个错误的log不会影响已经部署起来的ob,解决这个报错的话,你升级一下obd 到最新版本 目前的报错就解决了。
在线环境:obd upgrade
离线环境:下载最新的all in one 然后解压 在bin/upgrade.sh 执行一下然后按提示source一下就可以了
2.你说的ob运行一段会挂掉 需要你提供ob的log 我们帮你分析

除了提供ob的log,在提供一下机器配置和ob的配置
0.ob log 在节点的安装目录 里面的log 目录
1.机器配置 提供 cpu 内存 磁盘
2.剩余资源 df -h , free -g
3.ob的配置 可以通过obd查看 obd cluster edit-config {deployname}

内存64G CPU16核 磁盘400G

内存


磁盘

CPU 16核

一下是配置信息
[root@localhost log]# obd cluster edit-config dscpcolony
Search param plugin and load ok
user:
username: root
password: dscp@2021
port: 22
oceanbase-ce:
version: 4.1.0.0
release: 101010022023051821.el7
package_hash: 21271468e0dee7aaf3d4eff4c4bf5e07421ef6fe
127.0.0.1:
zone: zone1
servers:

  • 127.0.0.1
    global:
    appname: dscpcolony
    root_password: Xg6=M-n1
    mysql_port: 2881
    rpc_port: 2882
    home_path: /opt/oceanbase4.1.0/dscpcolony/oceanbase
    ocp_agent_monitor_password: Lh8kyje8eT
    proxyro_password: 8GZz2TcM2V
    ocp_meta_password: BnUAREwjbu
    enable_syslog_recycle: true
    enable_syslog_wf: false
    max_syslog_file_count: 4
    ocp_meta_tenant_log_disk_size: 6656M
    ocp_meta_tenant_memory_size: 1536M
    memory_limit: 6G
    datafile_size: 20G
    system_memory: 1G
    log_disk_size: 15G
    cpu_count: 16
    production_mode: false
    devname: lo
    __min_full_resource_pool_memory: 1073741824
    obproxy-ce:
    version: 4.1.0.0
    package_hash: 2a9d9bf67f179dcca2a8c9e7c77373d94e7e2abe
    release: 7.el7
    servers:
  • 127.0.0.1
    global:
    prometheus_listen_port: 2884
    listen_port: 2883
    home_path: /opt/oceanbase4.1.0/dscpcolony/obproxy
    obproxy_sys_password: LEaRPVKKAZ
    skip_proxy_sys_private_check: true
    enable_strict_kernel_release: false
    enable_cluster_checkout: false
    proxy_mem_limited: 500M
    rs_list: 127.0.0.1:2881
    observer_sys_password: 8GZz2TcM2V
    cluster_name: dscpcolony
    observer_root_password: Xg6=M-n1
    depends:
  • oceanbase-ce
    obagent:
    version: 1.3.1
    package_hash: ccfe93272a79ab1073e76f00580386c9c52e8324
    release: 5.el7
    servers:
  • 127.0.0.1
    global:
    monagent_http_port: 8088
    mgragent_http_port: 8089
    home_path: /opt/oceanbase4.1.0/dscpcolony/obagent
    http_basic_auth_password: 2E0rUCZUtL
    ob_monitor_status: active
    depends:
  • oceanbase-ce
    ocp-express:
    version: 1.0.1
    package_hash: 59eb8062858271a23080c824c98a72f9e5896235
    release: 100000072023051917.el7
    servers:
  • 127.0.0.1
    global:
    port: 8180
    home_path: /opt/oceanbase4.1.0/dscpcolony/ocpexpress
    admin_passwd: tD2v7C._
    memory_size: 752M
    depends:
  • obagent
  • oceanbase-ce
  • obproxy-ce

我们这边不能用这个方式获取的。 我看了你的配置,你的配置比较低 应该是白屏的最小化部署的吧 这个配置只能说可以跑通 看你机器资源充足 建议你增大配置之后部署看看,如果再不稳定可以私聊我 通过钉钉发送log
通过obd cluster edit-config {deployname} 修改一下参数 ,然后根据提示进行reload 或restart
memory_limit: 6G 建议16g+
datafile_size: 20G 如果长期运行建议给大些
system_memory: 1G 建议4g
log_disk_size: 15G 如果长期运行建议给大些