升级OCP到4.3.2-20240925174740版本后,任务Reinstall OCP agent一直处于执行中

【 使用环境 】测试环境
【 OCP 】
【 使用版本 】4.3.2-20240925174740
【问题描述】从 4.2.2-20240315150922升级到4.3.2-20240925174740后,OCP自动对每个host节点产生ocp agent重装任务Reinstall OCP agent。但每个重装任务都处于进行中。

1 个赞

麻烦发下任务日志

1 个赞

得看下页面上的日志打印的是啥,卡在什么动作上

1 个赞

log_task_5263200.zip (2.4 KB)

这是其中一个ocp reinstall 任务,第一个子步骤执行成功后,第二个没有启动。其他有些ocp reinstall任务第一个子步骤也没有启动

1 个赞


比如这个就完全没有执行,也不超时报错

1 个赞

你发下升级开始到结束的ocp-server.log及之后的一个ocp-server.log

通常在 /home/admin/ocp/log

1 个赞

ocp-server.log.2024-10-09.8.gz (7.1 MB)
ocp-server.log.2024-10-09.7.gz (10.8 MB)
ocp-server.log.2024-10-09.6.gz (12.0 MB)
这几个是升级当天的日志,实际升级时间大概是10.9下午一点左右

1 个赞

我联系ocp的老师看下,有进展回复你

1 个赞

查下 metadb 看下
select state,count(1) from subtask_instance where state in (“READY”, “RUNNING”) group by state;

1 个赞

1 个赞

大量任务在ready状态,过几个小时再查查,看数量是否减少了

1 个赞

数量没有减少,升级OCP是10.9执行的,都已经好几天了这些Prepare reinstalling OCP agent 都还是ready状态

麻烦取下当前进程的线程信息(ocp-server的java进程),

ps -ef|grep ocp-server|grep -v grep

切换到启动用户,然后执行下

 jstack -l <java 进程 pid>

jstack_result.txt (515.0 KB)

有办法把这些任务手动结束掉吗?想升级OB版本,也没法执行

可以先重启下 ocp ,然后这些任务应该就会失败了,后续可以手动重试下任务

重启ocp后,任务还是处于执行中的状态

执行下这两个SQL再看下

select state, count(1) from task_instance group by state;

select state, count(1) from subtask_instance group by state;

另外发下新的ocp-server.log



ocp-server.log (11.9 MB)

再执行下 select name, count(1) from task_instance where state = ‘RUNNING’ group by name order by 2;