OBD启动集群无法启动后续扩容的机器,需要手动启动

【 使用环境 】测试环境
【 OB or 其他组件 】OB
【 使用版本 】
【问题描述】扩容是通过 obd cluster scale_out 命令扩容的,集群关闭再次启动(通过 obd cluster start ob)未能启动扩容的机器。

需要手动启动observer进程,然后执行alter system start server 'ip:port’才可以。
这一部分能否优化一下。obd注册信息里是有这两台server的。

另外启动observer进程的时候,如果进入到bin目录下,执行./observer启动失败。
在observer的上一层级执行./bin/observer 可以启动。
通过观察发现如果在bin目录下执行./observer,会在当前目录生成etc配置文件夹。


就好像是没有去读取bin目录同级的etc配置文件。

如果以上问题可以复现,建议优化,谢谢

应该是缺少alter system add observer步骤手动执行一下就可以了,你的obd版本是多少

怎么看OBD版本啊
我的OBD部署在单独一台机器上,启动的时候,会自动拉起初始的server上的observer进程。
后边扩容的机器不会自动拉起进程,需要手动启进程 然后执行start server

obd --version,是否有执行过alter system add observer

扩容的时候执行过

提供一份yaml文件看看,按理说scale_out扩容成功yaml中会新增这两节点后续启动会自动带起

这个是扩容的时候指定的配置文件

这是目前的.obd目录下的配置文件
我重新扩容了下 三个zone 每个zone1节点扩为两节点。重启集群的时候还是没有拉起,有个租户资源池是unit_num = 2 在节点没有启动的情况下能对外提供服务吗



没启动的节点上有leader副本 我用 obclient 去连接租户是没问题 可以登录 也能执行语句

这边未复现出来,当可供服务的正常运行的zone大于1/2,租户即可提供正常服务

这个显示是因为~/.obd/cluster/<deploy_name>/conf.yaml中没有记录已扩容的两个节点,obd cluster scale_out完整流程会更新配置到conf.yaml中(只是扩容成功,写到ob配置表中),可能中间有停止还是其他的操作导致,obd没有记录到两个目标节点。我这边用310试了下scale_out扩容两节点,是没有问题的

scale_out.yaml一般是这样写的,可以参考


我从新来了一遍,有个报错,不知道是不是这个原因导致安装过程不完整

发一份obshell日志: observer的log目录里有个log_obshell目录,里面的就是 obshell 的日志。

2025-01-03T01:11:41.798 INFO [42202] [ec42605e42fde82b] [common/middleware.go:189] API request: [GET /api/v1/task/dag/maintain/agent, client=192.168.159.136, traceId=ec42605e42fde82b, body={}]
2025-01-03T01:11:41.798 INFO [42202] [ec42605e42fde82b] [common/middleware.go:360] verfiy request: /api/v1/task/dag/maintain/agent
2025-01-03T01:11:41.799 INFO [42202] [ec42605e42fde82b] [common/middleware.go:278] API response error: [GET /api/v1/task/dag/maintain/agent, client=192.168.159.136, traceId=ec42605e42fde82b, duration=0, status=404,data=, error={Code:2300, Message:Task not found: Agent is not under maintenance}]
2025-01-03T01:11:42.807 INFO [42202] [d0709d20e6220b11] [common/middleware.go:189] API request: [GET /api/v1/secret, client=192.168.159.136, traceId=d0709d20e6220b11, body={}]
2025-01-03T01:11:42.807 INFO [42202] [d0709d20e6220b11] [common/middleware.go:271] API response OK: [GET /api/v1/secret, client=192.168.159.136, traceId=d0709d20e6220b11, duration=0, status=200, data=192.168.159.141:2886]
2025-01-03T01:11:42.812 INFO [42202] [504b0d70d05f883a] [common/middleware.go:189] API request: [GET /api/v1/task/dag/maintain/agent, client=192.168.159.136, traceId=504b0d70d05f883a, body={}]
2025-01-03T01:11:42.812 INFO [42202] [504b0d70d05f883a] [common/middleware.go:360] verfiy request: /api/v1/task/dag/maintain/agent
2025-01-03T01:11:42.813 INFO [42202] [504b0d70d05f883a] [common/middleware.go:278] API response error: [GET /api/v1/task/dag/maintain/agent, client=192.168.159.136, traceId=504b0d70d05f883a, duration=1, status=404,data=, error={Code:2300, Message:Task not found: Agent is not under maintenance}]

打包个附件发过来看看