oms_4.1.0 oms_drc_supervisor一直处于starting状态 不停启动多个进程 内存耗尽

【 使用环境 】生产环境 or 测试环境
【 OB or 其他组件 】
【 使用版本 】oms_4.1.0-ce.tar.gz
【问题描述】
oms启动后,其他进程启动正常,oms_drc_supervisor一直处于starting状态,会出现n个java进程 n不断增大,直到内存耗尽 最后宕机
启动的java进程为


supervisor日志为

sshd日志
图片
drc日志 但 netstat -anlp|grep 8089 占用8089的进程为nginx: master process nginx -c /home/ds/ghana/config/tengine.conf -g daemon off;

console日志

nginx日志

【复现路径】oms安装好后,docker启动就这样了
【问题现象及影响】 内存耗尽 宕机了

【附件】

具体安装是如何操作的?这个安装过程应该是有问题了

是我搞错了。 安装的时候就有问题。 后来看docker启动起来了, 就没管了

把下面这个文件保存一下,然后stop 容器,配置发过来看一下,另外给一个目录(可以放日志文件,容量稍微大一点),我给你直接oms容器的命令
/home/admin/conf/config.yaml

more /home/admin/conf/config.yaml
“apsara_audit_enable”: “false”
“apsara_audit_sls_access_key”: “”
“apsara_audit_sls_access_secret”: “”
“apsara_audit_sls_endpoint”: “”
“apsara_audit_sls_ops_site_topic”: “”
“apsara_audit_sls_user_site_topic”: “”
“cm_is_default”: !!bool “true”
“cm_location”: “0”
“cm_nodes”:

  • “192.168.49.197”
    “cm_region”: “default”
    “cm_region_cn”: “默认地域”
    “cm_url”: “http://192.168.49.197:8088
    “drc_cm_db”: “oms_cm”
    “drc_cm_heartbeat_db”: “oms_cm_hb”
    “drc_rm_db”: “oms_rm”
    “oms_meta_host”: “192.168.49.197”
    “oms_meta_password”: “root123456”
    “oms_meta_port”: “3370”
    “oms_meta_user”: “root”
    “tsdb_enabled”: “false”
    “tsdb_password”: “”
    “tsdb_service”: “”
    “tsdb_url”: “”
    “tsdb_username”: “”

#oms目录是这样的。data4目录有900GB剩余空间 oms_docker是oms映射到宿主机的目录
ll /data4/oms/
总用量 12
-rw-r–r-- 1 root root 679 7月 7 16:06 config.yaml
drwxr-xr-x 2 root root 4096 7月 7 16:03 logs
drwxr-xr-x 5 root root 4096 7月 7 16:07 oms_docker

给你这个目录/scripts/oms 目前有900GB空间

#宿主机上的配置文件(根据实际情况修改)/data/8/liuche/oms/oms_conf.yaml
#宿主机上(根据实际情况修改)/data/8/oms/out/oms_logs
#宿主机上(根据实际情况修改)/data/8/oms/out/oms_store
#宿主机上(根据实际情况修改)/data/8/oms/out/oms_run
#宿主机ip(根据实际情况修改):192.168.49.197

#启动oms容器
sudo docker run -dit --net=host
-v /data/8/liuche/oms/oms_conf.yaml:/home/admin/conf/config.yaml
-v /data/8/oms/out/oms_logs:/home/admin/logs
-v /data/8/oms/out/oms_store:/home/ds/store
-v /data/8/oms/out/oms_run:/home/ds/run
–privileged=true
–ulimit nproc=65535:65535
–pids-limit -1
-e OMS_HOST_IP=“192.168.49.197”
–name oms_ce reg.docker.alibaba-inc.com/oceanbase/oms:v202305_v41ce_ce

#执行初始化过程
sudo docker exec -it oms_ce /bin/bash -c “sh /root/docker_init.sh”

#配置文件样例
#/data/8/liuche/oms/oms_conf.yaml

oms_meta_host: 元数据库ip
oms_meta_port: 元数据库端口port
oms_meta_user: 元数据库用户名
oms_meta_password: 元数据库密码
drc_rm_db: oms_ce_rm
drc_cm_db: oms_ce_cm
drc_cm_heartbeat_db: oms_ce_cm_heartbeat
drc_user: oms_drc
drc_password: xxx根据文档来
cm_url: http://宿主机ip(根据实际情况修改):8088
cm_location: 100
cm_region: default
cm_region_cn: default
cm_is_default: true
cm_nodes:

  • 宿主机ip(根据实际情况修改)

时序数据库,如果没有,tsdb_enabled设置false

tsdb_service: ‘INFLUXDB’
tsdb_enabled: true
tsdb_url: ‘时序数据库ip:8086’
tsdb_username: 时序数据库用户名
tsdb_password: 时序数据库密码

如果还有问题,在微信群里可以加我一下,微信:打不溜

还是有问题, 与原来的现象一样

#启动oms容器。
sudo docker run -dit --net=host
-v /scripts/8/liuche/oms/oms_conf.yaml:/home/admin/conf/config.yaml
-v /scripts/8/oms/out/oms_logs:/home/admin/logs
-v /scripts/8/oms/out/oms_store:/home/ds/store
-v /scripts/8/oms/out/oms_run:/home/ds/run
–privileged=true
–ulimit nproc=65535:65535
–pids-limit -1
-e OMS_HOST_IP=“192.168.49.197”
–name oms_ce reg.docker.alibaba-inc.com/oceanbase/oms:v202305_v41ce_ce

#执行初始化过程。 初始化时报错
sudo docker exec -it oms_ce /bin/bash -c “sh /root/docker_init.sh”

配置文件如下

这是管控没有启动成功,到oms容器中,下面这个目录下查一下有没有报错信息
/home/admin/logs/ghana/Ghana

在开发人员指导下,在/home/admin/logs/supervisor/ 发现9000端口被占用。 解决