ocp4.3.5部署失败

【 使用环境 】生产环境
【 OB or 其他组件 】
【 使用版本 】
【问题描述】清晰明确描述问题

使用最新的安装包在公有云部署ocp服务,预检查 都通过,部署的结果却失败了。
在测试环境同样的步骤是完成了。

线上环境:

执行用户:root
ip地址:10.2.0.14
ocp安装包:ocp-all-in-one-4.3.5-20250303105901.el7.x86_64.tar.gz

从日志看 是没有权限访问,但是本机的互信我已经做了 提前测试了。

日志:

完整日志:
nohup.log (268.8 KB)

看下ocp进程是否起来了,ps -ef|grep ocp
查下防火墙关掉了么,提供下obd的版本

obd 3.1.2 版本的 , 没有开防火墙。

我又重新安装了一遍 , 还是失败了 真见鬼了 ocp log目录也没有日志文件。

标准输出还是这个错误:

下面是 失败时候 服务器端口和服务状态

observer 可以登陆 貌似只有 ocp 没有成功

测试环境 相同的步骤 成功了,线上失败了 下面是错误信息

这是web界面输出的全部日志:

±--------------------------------------------------------------------------------------------+
| Packages |
±--------------±--------±-----------------------±-----------------------------------------+
| Repository | Version | Release | Md5 |
±--------------±--------±-----------------------±-----------------------------------------+
| oceanbase-ce | 4.2.1.8 | 108000022024072217.el7 | 499b676f2ede5a16e0c07b2b15991d1160d972e8 |
| obproxy-ce | 4.3.3.0 | 5.el7 | 19a002976e4de93a407afe6ab4323310edb936cf |
| ocp-server-ce | 4.3.5 | 20250303105901.el7 | bfca57991d49cf0a1d64a107ab0b34009ca4b500 |
±--------------±--------±-----------------------±-----------------------------------------+
Repository integrity check ok
Load param plugin ok
Open ssh connection ok
Generate ocp server configuration ok
Initializes observer work home ok
Initializes obproxy work home ok
Initializes ocp-server-ce work home ok
Parameter check ok
Remote oceanbase-ce-4.2.1.8-108000022024072217.el7-499b676f2ede5a16e0c07b2b15991d1160d972e8 repository install ok
Remote oceanbase-ce-4.2.1.8-108000022024072217.el7-499b676f2ede5a16e0c07b2b15991d1160d972e8 repository lib check !!
Remote obproxy-ce-4.3.3.0-5.el7-19a002976e4de93a407afe6ab4323310edb936cf repository install ok
Remote obproxy-ce-4.3.3.0-5.el7-19a002976e4de93a407afe6ab4323310edb936cf repository lib check ok
Remote ocp-server-ce-4.3.5-20250303105901.el7-bfca57991d49cf0a1d64a107ab0b34009ca4b500 repository install ok
Remote ocp-server-ce-4.3.5-20250303105901.el7-bfca57991d49cf0a1d64a107ab0b34009ca4b500 repository lib check !!
Try to get lib-repository
Remote oceanbase-ce-libs-4.2.1.8-108000022024072217.el7-d02f4bfd321370a02550424293beb1be31204038 repository install ok
Remote oceanbase-ce-4.2.1.8-108000022024072217.el7-499b676f2ede5a16e0c07b2b15991d1160d972e8 repository lib check ok
Remote openjdk-jre-1.8.0_322-b09.el7-051aa69c5abb8697d15c2f0dcb1392b3f815f7ed repository install ok
Remote ocp-server-ce-4.3.5-20250303105901.el7-bfca57991d49cf0a1d64a107ab0b34009ca4b500 repository lib check ok
ocp deployed
Load cluster param plugin ok
[WARN] OBD-1011: (10.2.0.14) The recommended value of fs.aio-max-nr is 1048576 (Current value: 65536)
[WARN] OBD-1007: (10.2.0.14) The recommended number of open files is 655350 (Current value: 65535)
[WARN] OBD-1007: (10.2.0.14) The recommended number of max user processes is 655350 (Current value: 256979)
[WARN] OBD-1007: (10.2.0.14) The recommended number of core file size is unlimited (Current value: 0)
[WARN] OBD-1007: (10.2.0.14) The recommended number of stack size is unlimited (Current value: 8192)
cluster scenario: None
Start observer ok
observer program health check ok
Connect to observer ok
Cluster bootstrap ok
obshell start ok
obshell program health check ok
obshell bootstrap ok
Connect to observer ok
Wait for observer init ok
±--------------------------------------------+
| oceanbase-ce |
±----------±--------±-----±------±-------+
| ip | version | port | zone | status |
±----------±--------±-----±------±-------+
| 10.2.0.14 | 4.2.1.8 | 2881 | zone1 | ACTIVE |
±----------±--------±-----±------±-------+
obclient -h10.2.0.14 -P2881 -uroot -p’******’ -Doceanbase -A

cluster unique id: d6ba944f-1d24-5264-8200-95403330d217-195a3a19973-08010204

succeed
Load cluster param plugin ok
start obproxy ok
obproxy program health check ok
Connect to obproxy ok
Connect to obproxy ok
±--------------------------------------------------------------+
| obproxy-ce |
±----------±-----±----------------±----------------±-------+
| ip | port | prometheus_port | rpc_listen_port | status |
±----------±-----±----------------±----------------±-------+
| 10.2.0.14 | 2883 | 2884 | 2885 | active |
±----------±-----±----------------±----------------±-------+
obclient -h10.2.0.14 -P2883 -uroot@proxysys -p’******’ -Doceanbase -A

succeed
Load cluster param plugin ok
Check before start ocp-server-ce ok
Connect to observer ok
Create tenant ocp_meta ok
Create tenant ocp_monitor ok
Exec oceanbase-ce-4.2.1.8-108000022024072217.el7-499b676f2ede5a16e0c07b2b15991d1160d972e8 import_time_zone_info.py ok
Exec oceanbase-ce-4.2.1.8-108000022024072217.el7-499b676f2ede5a16e0c07b2b15991d1160d972e8 import_srs_data.py ok
obclient -h10.2.0.14 -P2881 -uroot@ocp_meta -Doceanbase -A

Exec oceanbase-ce-4.2.1.8-108000022024072217.el7-499b676f2ede5a16e0c07b2b15991d1160d972e8 import_time_zone_info.py ok
Exec oceanbase-ce-4.2.1.8-108000022024072217.el7-499b676f2ede5a16e0c07b2b15991d1160d972e8 import_srs_data.py ok
obclient -h10.2.0.14 -P2881 -uroot@ocp_monitor -Doceanbase -A

Start ocp-server-ce x
[ERROR] failed to start 10.2.0.14 ocp server

select tenant_name,tenant_id from dba_ob_tenants;

select * from gv$ob_servers\G

select * from dba_ob_unit_configs;

–截图发出来看下 , 生产的。

obclient -h10.2.0.14 -P2881 -uroot@ocp_monitor -Doceanbase -A
黑屏测试登录一下这个租户和ocp_meta租户看看租户是否创建成功了

能登陆进去

120.131.13 这个地址是啥 啊 。 详细介绍下 您的部署 规划吧。

资源看着是足够的。

在这个失败界面 , 您别动。也不重新部署 ,也不 关闭界面

使用系统 obd 命令 进行 重启和关闭看看 。
obd cluster list

obd cluster start cluster_name
obd cluster start ocp-cluster

通过尝试黑屏命令启动查看具体报错信息发现,环境缺少java环境。
image

手动安装上jdk后启动正常。

1)正常obd会检查java环境并缺少会自带有安装包安装。
2)环境日志看是有进行安装jdk步骤,且检查通过。

可能是和用户手动清理过文件目录有关系、
image
建议重新部署观察下jdk安装是否正常,不建议直接删除目录进行清理。如果有卸载需求,可以通过 obd 命令卸载集群,再删除 ~/.obd 目录 最后 rpm -e 清理obd安装包。