OCP升级OB V4.3.5 BP1,反复卡在某个阶段

【 使用环境 】生产环境
【 OB or 其他组件 】使用OCP 将OB集群从V4.3.4升级至V4.3.5 BP1

OCP日志

2025-04-07 17:05:06.972  INFO 19018 --- [manual-subtask-executor11,3ce742c2d01090d4,bd91a13d488ce3ba] c.o.o.s.t.business.WaitDagSuccessTask    : dag 25713 not finish, will check later
2025-04-07 17:06:07.020  INFO 19018 --- [manual-subtask-executor11,3ce742c2d01090d4,bd91a13d488ce3ba] c.o.o.s.t.business.WaitDagSuccessTask    : dag 25713 not finish, will check late

麻烦查看下OCP是否有过重启,升级子任务是否存在异常

怎么判断?

我发起升级之后没有去做任何操作

看一下任务中心,升级操作,会存在多个任务

又是这个典型问题,我的obshell密码有特殊字符。。。以前升级就出现过这个,不清楚接下来流程该咋弄了

当前现状:2-2-2集群,已经有两个observer的obshell进展被停止,剩余四个obshell还在运行。

任务中心:obshell任务启动失败,另一个认识执行了16个小时未成功,我已经手动停止。

长期间未合并告警

1 个赞

溜达社区问答,能学到很多企业版没有的东西 :+1:

当前两个失败的任务如何处理?

start obshell process的失败任务是否可以skip?

麻烦提供一下 start obshell这一步的详细日志报错

obshell.log.gz (4.0 MB)

这是其中一台启动失败的obshell日志

要ocp上的任务日志

ocp-server.log.2025-04-07.3.gz (9.8 MB)

根据这个帖子的解决方法处理吧

1、这次是OCP接管了集群,并且通过OCP升级

2、obshell怎么处理,是否全部kill 再手动启动,然后skip job

3、当前无法合并(集群处于upgrade状态吧)

处理完升级问题,才会进行合并

大概步骤描述一下吧,似乎跟上次的问题略有不同。

start obshell process 这个任务失败的错误信息堆栈能够截个图呢?看看是不是密码中特殊字符的问题。

这是卡在一个dag上吗

没找到因为特殊字符而启动失败的报错,obshell日志中就是启动失败

2025-04-07T16:06:09.523 INFO  [1850] [F000000000000000] [server/agent.go:104] obshell server received 'terminated' signal. exiting...
2025-04-07T16:06:09.523 INFO  [1850] [F000000000000000] [web/server.go:229] set web server state to 3
2025-04-07T16:06:09.524 ERROR [1850] [F000000000000000] [runtime/asm_amd64.s:1598] serve on tcp listener failed fields: error="http: Server closed"
2025-04-07T16:06:09.525 ERROR [1850] [F000000000000000] [runtime/asm_amd64.s:1598] obshell serve on unix listener failed fields:, error="http: Server closed"
2025-04-07T16:06:09.525 INFO  [1850] [F000000000000000] [web/server.go:229] set web server state to 4
2025-04-07T16:06:09.527 INFO  [1850] [F000000000000000] [process/exit.go:38] exit with code 23: obshell server received 'terminated' signal.

我现在手动启动了一台,成功了

export OB_ROOT_PASSWORD="]69in7z(&*";/oceanbase/obtest/oceanbase/bin/obshell admin start --ip x.x.x.x --port 2886