obd扩容最后报错obshell take over failed

【 使用环境 】测试环境
【 OB or 其他组件 】OB
【 使用版本 】
【问题描述】obd cluster scale_out ob -c scale.yml
扩容最后屏幕打印出错误:obshell take over failed


实际在扩容容机器查看,后台obshell进程已启动,observer进行已启动。

端口显示使用的tcp6的端口:

【附件及日志】obshell 部分日志
2025-01-03T01:11:41.798 INFO [42202] [ec42605e42fde82b] [common/middleware.go:189] API request: [GET /api/v1/task/dag/maintain/agent, client=192.168.159.136, traceId=ec42605e42fde82b, body={}]
2025-01-03T01:11:41.798 INFO [42202] [ec42605e42fde82b] [common/middleware.go:360] verfiy request: /api/v1/task/dag/maintain/agent
2025-01-03T01:11:41.799 INFO [42202] [ec42605e42fde82b] [common/middleware.go:278] API response error: [GET /api/v1/task/dag/maintain/agent, client=192.168.159.136, traceId=ec42605e42fde82b, duration=0, status=404,data=, error={Code:2300, Message:Task not found: Agent is not under maintenance}]
2025-01-03T01:11:42.807 INFO [42202] [d0709d20e6220b11] [common/middleware.go:189] API request: [GET /api/v1/secret, client=192.168.159.136, traceId=d0709d20e6220b11, body={}]
2025-01-03T01:11:42.807 INFO [42202] [d0709d20e6220b11] [common/middleware.go:271] API response OK: [GET /api/v1/secret, client=192.168.159.136, traceId=d0709d20e6220b11, duration=0, status=200, data=192.168.159.141:2886]
2025-01-03T01:11:42.812 INFO [42202] [504b0d70d05f883a] [common/middleware.go:189] API request: [GET /api/v1/task/dag/maintain/agent, client=192.168.159.136, traceId=504b0d70d05f883a, body={}]
2025-01-03T01:11:42.812 INFO [42202] [504b0d70d05f883a] [common/middleware.go:360] verfiy request: /api/v1/task/dag/maintain/agent
2025-01-03T01:11:42.813 INFO [42202] [504b0d70d05f883a] [common/middleware.go:278] API response error: [GET /api/v1/task/dag/maintain/agent, client=192.168.159.136, traceId=504b0d70d05f883a, duration=1, status=404,data=, error={Code:2300, Message:Task not found: Agent is not under maintenance}]

1 个赞

obd版本是多少

2 个赞

老师 版本是 3.0.0

2 个赞

提供一下obshell日志,ps -ef|grep obagent看一下组件启动了么
升级一下obd,目前已经发布3.10版本了

3 个赞

老师 后台没有启动agent 这个在哪启动一下啊

2 个赞

obd cluster start xxxx -c obagent 单独启动某个组件
提供一下obshell日志,yaml文件

3 个赞

你好问题解决了么,麻烦提个一份完整的obd日志和obshell日志

2 个赞

老师 我初始集群是三个zone 后边新增的三个zone是扩容的 扩容的这三台上没有安装 obagent 所以后台就没有进程 文件目录下没有agent 扩容是通过 obd cluster scale_out扩容的 不知道扩容的时候是会自动安装agent 还是不会安装agent啊

3 个赞

应该是不会阻挡安装的。obhsell接管失败有可能跟网络互信有关,需要提供obshell日志。observer的log目录里有个log_obshell目录,里面的就是 obshell 的日志

2 个赞

client.log (1.9 KB)
daemon.log (3.2 KB)
obshell.log (618.6 KB)
obshell.out.log (325.8 KB)
老师 您看一下 我把集群destroy 重新创建 然后基于集群扩容 还是同样的问题

2 个赞

看起来是插件的版本混淆的了,使用 obd update 更新下obd版本,然后重试下。如果使用的all in one,去官网下载最新all in one 来升级obd。
然后你再看下你的机器上是不是同时存在all in one和obd rpm安装的obd?如果有的话,把all in one卸载了。

请问下,你这边是怎么升级obd到3.0.0的,是使用all in one吗?

1 个赞

第一次部署使用的all in one 的包安装的 中间好像执行过一次 obd update 没有rpm安装的obd

1 个赞

重试更新obd后再执行了么

1 个赞

老师 升级了 目前版本是3.1.1

扩容的时候报找不到rpm安装包
我就下载了放到了rpms文件夹 然后再安装还是报找不到

1 个赞

需要使用obd mirror clone

1 个赞


老师 clone以后 还是找不到包 我感觉我现在的环境是混乱的 要不我全部铲了重新弄一下吧

1 个赞

obd mirror list看看是不是开着远程镜像呢,关掉试试

1 个赞


老师 您看一下

obd mirror list local 看一下有没有4.35的安装包。
scale_out是扩容,你是不是想升级执行错命令了

老师 升级我是下载的新的all in one的包 然后执行了bin/install.sh 这样对吗