OCP v4.4.0升级到v4.4.1触发重装OCP agent失败

【 使用环境 】测试环境
【 OB or 其他组件 】ocp v4.4.1
【 使用版本 】
【问题描述】OCP v4.4.0升级到v4.4.1触发重装OCP agent失败
【复现路径】问题出现前后相关操作
【附件及日志】
错误码
CMP10003
错误信息
OCP-Agent 任务 [Reinstall] 失败,错误信息:Module=agentctl, kind=INTERNAL, code=agentctl_reinstall_failed; [panic: runtime error: invalid memory address or nil pointer dereference [signal SIGSEGV: segmentation violation code=0x1 addr=0x20 pc=0xb4512e] goroutine 1 [running]: github.com/oceanbase/obagent/executor/agent.(*Admin).getPackageInfo(0xc000000380, 0xc0000d2000, {0x106ba60, 0xc}, {0x11eac30, 0x7}) /workspace/code-repo/ocp-agent/executor/agent/admin.go:915 +0x6ce github.com/oceanbase/obagent/executor/agent.(*Admin).checkCurrentPkg(0xc000000380, 0xc0000d2000) /workspace/code-repo/ocp-agent/executor/agent/admin.go:715 +0xcb github.com/oceanbase/obagent/executor/agent.(*Admin).ReinstallAgent(0xc000000380, {{{0x7ffdecb06eea, 0x24}}, {{0x7ffdecb06e19, 0x70}, {0x7ffdecb06e95, 0x28}, {0x7ffdecb06ec8, 0x14}}}) /workspace/code-repo/ocp-agent/executor/agent/admin.go:434 +0x4b6 main.defineOperationCommands.func7(0xc000455508, {0xc000214200?, 0x4?, 0x105bcb6?}) /workspace/code-repo/ocp-agent/cmd/agentctl/main.go:395 +0x1fb github.com/spf13/cobra.(*Command).execute(0xc000455508, {0xc0002141c0, 0x4, 0x4}) /home/admin/goworkspace/pkg/mod/github.com/spf13/cobra@v1.7.0/command.go:944 +0x87b github.com/spf13/cobra.(*Command).ExecuteC(0x1ae9a00) /home/admin/goworkspace/pkg/mod/github.com/spf13/cobra@v1.7.0/command.go:1068 +0x3a5 github.com/spf13/cobra.(*Command).Execute(…) /home/admin/goworkspace/pkg/mod/github.com/spf13/cobra@v1.7.0/command.go:992 main.main() /workspace/code-repo/ocp-agent/cmd/agentctl/main.go:550 +0xe5 ] cause: exit status 2

subtask_4012279.log (35.6 KB)

3 个赞

agent目前存在tar包和rpm包两种。最初安装的是不是rpm包?
本次重新reinstall是ocp-agent-ce-4.4.1-20260212101756.linux.x86_64.tar.gz

2 个赞

使用的为开源441版本么

1 个赞
  • 是的,使用的为开源441版本
  • 一开始系统默认(自动重装)是rpm包,同样的错误失败后,手动跳过,使用了tar.gz包,两种报错误的内容是一致的。
  • 手动跳过后,ocp中查版本是升级后的441,但是我无法分辨是否有效。
  • 手动跳过后,重装OCP agent依然出现同样的错误
1 个赞

学习下

1 个赞

任务是跳过的话 肯定是没升级成功的。你使用rpm包重新安装一下试试

1 个赞

支持一下

2 个赞

重装也是不行。

image

1 个赞

任务日志麻烦发一份

1 个赞

和首次的日志一样,下面是上面截图中的日志。

subtask_4012886.log (35.6 KB)

1 个赞

这个bug触发概率比较低 稍等这边咨询下ocp同学

ocp agent的tar包哪来麻烦描述下

升级ocp-ce镜像为441内部自带的吧。

为了保险,我把这个节点上删了重新安装。没有出错误了

操作是仅删掉 ocp_agent目录么

升级ocp时候是obd自动拉镜像升级还是ocp all in one包升级

  • 删除主机,并删除主机上的ocp_agent目录。之后再添加主机。个人感觉应该是ocp_agent目录下的文件数据问题
  • 我这边使使用docker管理ocp服务,更新即调整ocp-ce镜像版本为441