【 使用环境 】测试环境
【 OCP 】
【 使用版本 】4.3.2-20240925174740
【问题描述】从 4.2.2-20240315150922升级到4.3.2-20240925174740后,OCP自动对每个host节点产生ocp agent重装任务Reinstall OCP agent。但每个重装任务都处于进行中。
麻烦发下任务日志
得看下页面上的日志打印的是啥,卡在什么动作上
log_task_5263200.zip (2.4 KB)
这是其中一个ocp reinstall 任务,第一个子步骤执行成功后,第二个没有启动。其他有些ocp reinstall任务第一个子步骤也没有启动
你发下升级开始到结束的ocp-server.log及之后的一个ocp-server.log
通常在 /home/admin/ocp/log
ocp-server.log.2024-10-09.8.gz (7.1 MB)
ocp-server.log.2024-10-09.7.gz (10.8 MB)
ocp-server.log.2024-10-09.6.gz (12.0 MB)
这几个是升级当天的日志,实际升级时间大概是10.9下午一点左右
我联系ocp的老师看下,有进展回复你
查下 metadb 看下
select state,count(1) from subtask_instance where state in (“READY”, “RUNNING”) group by state;
大量任务在ready状态,过几个小时再查查,看数量是否减少了
数量没有减少,升级OCP是10.9执行的,都已经好几天了这些Prepare reinstalling OCP agent 都还是ready状态
麻烦取下当前进程的线程信息(ocp-server的java进程),
ps -ef|grep ocp-server|grep -v grep
切换到启动用户,然后执行下
jstack -l <java 进程 pid>
有办法把这些任务手动结束掉吗?想升级OB版本,也没法执行
可以先重启下 ocp ,然后这些任务应该就会失败了,后续可以手动重试下任务
重启ocp后,任务还是处于执行中的状态
执行下这两个SQL再看下
select state, count(1) from task_instance group by state;
select state, count(1) from subtask_instance group by state;
另外发下新的ocp-server.log
再执行下 select name, count(1) from task_instance where state = ‘RUNNING’ group by name order by 2;