OCP升级OB V4.3.5 BP1,反复卡在某个阶段

当前两个失败的任务如何处理?

start obshell process的失败任务是否可以skip?

麻烦提供一下 start obshell这一步的详细日志报错

obshell.log.gz (4.0 MB)

这是其中一台启动失败的obshell日志

要ocp上的任务日志

ocp-server.log.2025-04-07.3.gz (9.8 MB)

根据这个帖子的解决方法处理吧

1、这次是OCP接管了集群,并且通过OCP升级

2、obshell怎么处理,是否全部kill 再手动启动,然后skip job

3、当前无法合并(集群处于upgrade状态吧)

处理完升级问题,才会进行合并

大概步骤描述一下吧,似乎跟上次的问题略有不同。

start obshell process 这个任务失败的错误信息堆栈能够截个图呢?看看是不是密码中特殊字符的问题。

这是卡在一个dag上吗

没找到因为特殊字符而启动失败的报错,obshell日志中就是启动失败

2025-04-07T16:06:09.523 INFO  [1850] [F000000000000000] [server/agent.go:104] obshell server received 'terminated' signal. exiting...
2025-04-07T16:06:09.523 INFO  [1850] [F000000000000000] [web/server.go:229] set web server state to 3
2025-04-07T16:06:09.524 ERROR [1850] [F000000000000000] [runtime/asm_amd64.s:1598] serve on tcp listener failed fields: error="http: Server closed"
2025-04-07T16:06:09.525 ERROR [1850] [F000000000000000] [runtime/asm_amd64.s:1598] obshell serve on unix listener failed fields:, error="http: Server closed"
2025-04-07T16:06:09.525 INFO  [1850] [F000000000000000] [web/server.go:229] set web server state to 4
2025-04-07T16:06:09.527 INFO  [1850] [F000000000000000] [process/exit.go:38] exit with code 23: obshell server received 'terminated' signal.

我现在手动启动了一台,成功了

export OB_ROOT_PASSWORD="]69in7z(&*";/oceanbase/obtest/oceanbase/bin/obshell admin start --ip x.x.x.x --port 2886

我指的是这个图,可以截全一点

Start obshell process JOB日志
subtask_26405.log (88.2 KB)

mgragent 的日志能发一下么,看一下 obshell 的启动命令是不是有问题

这个ob节点上只有monagent.log

mgragent.log最后更细那时间是2月份的了

start obshell process 失败的两个节点上都没有对应的 mgragent 日志么?

可以直接 skip 的,obshell 后面可以手动拉起来。

1、两个obshell进程启动失败的节点都没有monagent.log,其中一个节点连obagent目录都没有。。。

2、上述两个节点我看bin目录都已经更新成新的版本了,查看oceanbase.__all_server;也发现版本升级到4.3.5.1了

3、当前任务中心两个任务,obshell这个任务我skip,另一个任务我怎么操作?

另一个任务我看状态还是执行中?你把 start obshell process 跳过后,任务应该就是继续正常往下执行了