部署ocp 卡在 ocp-server-ce program health check

看帖子里是时间和时区问题,但查看了是一致的

也没有明确的报错原因的信息

[2025-06-10 07:24:22.535] [7a1c6ad8-45c6-11f0-ac3a-5254004d77d3] [DEBUG] – 192.168.56.55 program health check
[2025-06-10 07:24:22.540] [7a1c6ad8-45c6-11f0-ac3a-5254004d77d3] [DEBUG] – admin@192.168.56.55 execute: ls /proc/10961
[2025-06-10 07:24:23.054] [7a1c6ad8-45c6-11f0-ac3a-5254004d77d3] [DEBUG] – exited code 0
[2025-06-10 07:24:23.061] [7a1c6ad8-45c6-11f0-ac3a-5254004d77d3] [DEBUG] – admin@192.168.56.55 execute: bash -c ‘cat /proc/net/{tcp*,udp*}’ | awk -F’ ’ ‘{print $2,$10}’ | grep ‘00000000:1F90’ | awk -F’ ’ ‘{print $2}’ | uniq
[2025-06-10 07:24:23.644] [7a1c6ad8-45c6-11f0-ac3a-5254004d77d3] [DEBUG] – exited code 0
[2025-06-10 07:24:23.648] [7a1c6ad8-45c6-11f0-ac3a-5254004d77d3] [DEBUG] – failed to start 192.168.56.55 ocp-server-ce, remaining retries: 53

麻烦提供一份yaml文件和obd日志

obd.zip (40.8 KB)

之前同样的环境,部署成功的,这次是重新部署,怎么也部署不成功,也奇怪了

其它都成功了,只是这个服务起不来

obd cluster start xxxx -c ocp-server-ce单独启动试试

重启一下,报这个错误


提供一下这份日志,和ocp-server日志

ocp-server 里面是空的

重新部署后 4012, ‘Get Location Cache Fail’

image
这个参数调大吧 ,比如到3G 或者4G 。

ocp的租户是自己手动创建的吧?

1 个赞

这个 log_dir是 ocp-server的日志 ,您发一份出来看看

ocp-server就是个jave程序,如果内存资源足够的话,一般都是能启动的,
建议将memory_size: 8G 调的小一点, 别和ob抢占OS的资源

1 个赞

我也一直怀疑内存的问题,但我ocp这台 24G内存,ob三台也增加到 16G,OCP还是报错,
后面 时间也同步了, ntpd也开启了
网络也是虚拟机内部网络,ping一下,也很快的

基本就是 4012 get location cache fail 或者 start fail。 然后两个租户就自动删除了,从命令行再启动ocp,就报链接 ob 账号拒绝了

我是失败后,创建租户试试的,正常web部署的时候,启动ocp失败,它会把创建好的租户 drop掉,然后再报 部署失败

您把我给你说的内存调试下 , 在重新部署下 ,
数据字典找不到 可能是 实在慢, 初始化超时或者查询超时然后失败了

1 个赞

按照您说的调整了内存,重新部署了,还是一样的错误

但这次好像是时间不同步,但我都启动了ntpd,也都同步了时间, 但这台机器时间会跳的快,换了chrony同步也不行

Caused by: java.lang.Exception: OCP metadb and server time is not in-sync: db time = 2025-06-11T12:22:12.
138+08:00, server time = 2025-06-11T12:25:37.261+08:00, max difference allowed is 1000 ms

ocp-server.log (18.9 KB)

但换了台机器,时间也是同步的,又报之前的错误了

/home/admin/.obd/log/obd:

[2025-06-11 15:14:43.504] [1b77926c-4690-11f0-aa54-5254004d77d3] [DEBUG] – 192.168.56.54 program health check
[2025-06-11 15:14:43.504] [1b77926c-4690-11f0-aa54-5254004d77d3] [DEBUG] – admin@192.168.56.54 execute: ls /proc/4743
[2025-06-11 15:14:43.517] [1b77926c-4690-11f0-aa54-5254004d77d3] [DEBUG] – exited code 0
[2025-06-11 15:14:43.521] [1b77926c-4690-11f0-aa54-5254004d77d3] [DEBUG] – admin@192.168.56.54 execute: bash -c ‘cat /proc/net/{tcp*,udp*}’ | awk -F’ ’ ‘{print $2,$10}’ | grep ‘00000000:1F90’ | awk -F’ ’ ‘{print $2}’ | uniq
[2025-06-11 15:14:43.608] [1b77926c-4690-11f0-aa54-5254004d77d3] [DEBUG] – exited code 0
[2025-06-11 15:14:43.613] [1b77926c-4690-11f0-aa54-5254004d77d3] [DEBUG] – failed to start 192.168.56.54 ocp-server, remaining retries: 37

app.log
2025-06-11 15:17:01,779 INFO dispatch (request_response_log.py:40) [20b5607dd4544394b39cc1d41a20a7c6] app receive request, method: GET, url: http://192.168.56.54:8680/api/v1/ocp/deployments/2/install/5?id=2&task_id=5, query_params: id=2&task_id=5, body: , from: 192.168.56.1:52315
2025-06-11 15:17:01,781 INFO dispatch (idle_shutdown.py:36) [20b5607dd4544394b39cc1d41a20a7c6] dispatch request and update last request time
2025-06-11 15:17:01,782 INFO get_install_task_info (ocp_handler.py:777) [20b5607dd4544394b39cc1d41a20a7c6] get ocp install task info
2025-06-11 15:17:01,785 INFO dispatch (request_response_log.py:40) [ba4de287050b4a79bc1cd78267b95887] app receive request, method: GET, url: http://192.168.56.54:8680/api/v1/ocp/deployments/2/install/5/log, query_params: , body: , from: 192.168.56.1:52616
2025-06-11 15:17:01,788 INFO dispatch (idle_shutdown.py:36) [ba4de287050b4a79bc1cd78267b95887] dispatch request and update last request time
2025-06-11 15:17:01,789 INFO get_install_task_info (ocp_handler.py:777) [ba4de287050b4a79bc1cd78267b95887] get ocp install task info
2025-06-11 15:17:01,794 INFO dispatch (request_response_log.py:43) [20b5607dd4544394b39cc1d41a20a7c6] app send response, code: 200
2025-06-11 15:17:01,800 INFO dispatch (request_response_log.py:43) [ba4de287050b4a79bc1cd78267b95887] app send response, code: 200

ocp-server.log (12.1 KB)

yaml文件有问题。ocp_meta是存在ocenabase-ce里面的
chrony同步选择本地服务作为时钟源试试

1 个赞

yaml文件是页面配置生成的,不会又错误吧。 时钟问题,我换了服务器,解决了的。